- 博客(5)
- 资源 (9)
- 收藏
- 关注
原创 用户点击item序列embedding
场景描述:一句话是一个文本序列,通常可以直接使用word2vec编码;类似的,用户浏览商城时,依先后顺序点击的物品id,也构成物品序列,可以对各个用户的物品序列用word2vec训练。模型训练完,对一个新来的物品id,可以用模型预测,预测的向量就是对物品的embedding向量。%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspl
2019-05-27 12:26:18 1932
原创 词袋模型
在语言处理中,用向量x表示文本数据,以反映文本的各种语言属性,这称为特征提取或特征编码;而词袋模型Bag-of-words(简称BoW)就是一种可以 / 以多种方式 / 从文档中 / 对文本数据 / 进行特征提取 / 的方法。词袋是文本的表示,它涉及两件事:(1)已知单词的词汇;(2)衡量已知单词的存在。 词袋被称为单词的“ 包 ”,因为它仅关注文档中是否出现已知单词,而关于文档中单词的顺序或结...
2019-05-26 16:11:43 2196
原创 fastText的基本原理及参数
fastText原理对于一个长度为TTT的句子为w1,w2,...,wTw_1,w_2,...,w_Tw1,w2,...,wT,假设每个词都跟其相邻的词的关系最密切,即每个词都由相邻的词决定的(CBOW模型),或每个词都决定了相邻的词(Skip-gram模型)。为了基于语料库生成模型的训练样本,选取一个长度为2c+1(目标词前后各选c个词)的滑动窗口,从语料库中抽取一个句子:将滑动窗口由左至右滑动,每移动一次,窗口中的词组就形成了一个训练样本。优化目标:哈夫曼树fastText库的使用fa
2019-05-26 15:04:02 4078
原创 Vim的基本用法
Vim的基本用法(0)设置Vim编辑器语法颜色,直接去github上找vimrc设置,直接贴到vimrc里https://raw.githubusercontent.com/amix/vimrc/master/vimrcs/basic.vimvim ~/.vimrc(1)Vim编辑模式#光标按字母上下左右移动H左 L右 J下 K上#光标按单词前后移动W:跳到下一个单词word...
2019-05-26 13:45:30 522
test_ctr.zip
2020-05-29
underexpose_train.zip
2020-05-29
tfrecord数据.zip
2020-05-17
word2vec.zip
2019-09-19
README.md文档
2019-08-19
cnews.zip 新浪新闻RSS订阅频道10类文本数据
2019-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人