自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号:瑞行AI

欢迎关注公众号瑞行AI,算法交流学习、算法咨询服务

  • 博客(5)
  • 资源 (9)
  • 收藏
  • 关注

原创 fastText文本分类

http://fasttext.apachecn.org/#/doc/zh/supervised-tutorial

2019-05-27 12:27:19 1356

原创 用户点击item序列embedding

场景描述:一句话是一个文本序列,通常可以直接使用word2vec编码;类似的,用户浏览商城时,依先后顺序点击的物品id,也构成物品序列,可以对各个用户的物品序列用word2vec训练。模型训练完,对一个新来的物品id,可以用模型预测,预测的向量就是对物品的embedding向量。%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspl

2019-05-27 12:26:18 1932

原创 词袋模型

在语言处理中,用向量x表示文本数据,以反映文本的各种语言属性,这称为特征提取或特征编码;而词袋模型Bag-of-words(简称BoW)就是一种可以 / 以多种方式 / 从文档中 / 对文本数据 / 进行特征提取 / 的方法。词袋是文本的表示,它涉及两件事:(1)已知单词的词汇;(2)衡量已知单词的存在。 词袋被称为单词的“ 包 ”,因为它仅关注文档中是否出现已知单词,而关于文档中单词的顺序或结...

2019-05-26 16:11:43 2196

原创 fastText的基本原理及参数

fastText原理对于一个长度为TTT的句子为w1,w2,...,wTw_1,w_2,...,w_Tw1​,w2​,...,wT​,假设每个词都跟其相邻的词的关系最密切,即每个词都由相邻的词决定的(CBOW模型),或每个词都决定了相邻的词(Skip-gram模型)。为了基于语料库生成模型的训练样本,选取一个长度为2c+1(目标词前后各选c个词)的滑动窗口,从语料库中抽取一个句子:将滑动窗口由左至右滑动,每移动一次,窗口中的词组就形成了一个训练样本。优化目标:哈夫曼树fastText库的使用fa

2019-05-26 15:04:02 4078

原创 Vim的基本用法

Vim的基本用法(0)设置Vim编辑器语法颜色,直接去github上找vimrc设置,直接贴到vimrc里https://raw.githubusercontent.com/amix/vimrc/master/vimrcs/basic.vimvim ~/.vimrc(1)Vim编辑模式#光标按字母上下左右移动H左 L右 J下 K上#光标按单词前后移动W:跳到下一个单词word...

2019-05-26 13:45:30 522

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除