word embedding
AI小白入门
公众号:StudyForAI
知乎:https://www.zhihu.com/people/yuquanle/columns
展开
-
GloVe学习笔记
介绍: GloVe是一种用于获取词汇向量表示的无监督学习算法。 对来自语料库的聚合全局字词同现统计进行训练,并且所得到的表示展示了字矢量空间的有趣的线性子结构。 官网主页地址:https://nlp.stanford.edu/projects/glove/ Github:https://github.com/stanfordnlp/GloVe 论文下载地址:htt原创 2017-05-24 21:50:33 · 4749 阅读 · 0 评论 -
fasttext使用笔记
这里记录使用fastText训练word vector笔记 github地址:https://github.com/facebookresearch/fastText 下载到本机: $ gitclone https://github.com/facebookresearch/fastText.git $ cdfastText $ make Make报错:原创 2017-06-01 16:32:00 · 12005 阅读 · 0 评论 -
word2vec使用说明
word2vec是谷歌2013年开源的工具,原始论文,这个工具能比较高效的训练出词向量。 word2vec 代码参数说明: 默认:./word2vec -train text8 -output vectors.bin -cbow 0 -size 100 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -i原创 2017-05-21 23:28:28 · 1682 阅读 · 0 评论 -
维基百科数据库处理,用于训练word2vec
维基百科中文数据 1.在维基百科上下载中文数据,实时的 2.使用Wikipedia Extractor抽取文本(http://medialab.di.unipi.it/wiki/Wikipedia_Extractor)(半小时内完成) 3.使用opencc转换成简体 4.清除文本的符号和数字,用word_qufuhao 进一步工作: 对数据集进行进一步优化: 1.清除原创 2017-05-21 23:42:33 · 2678 阅读 · 0 评论