1、word2vec简介、作用
1)解决哪些问题
word2vec,字面意思,将word转化为vector,word是顺序有意义的实体,比如文档中单词、用户依次点击的商品。
word2vec得到实体向量,可以用来度量实体间相似度,在此基础上,以下方向都可以应用(部分方向未实践,参考资料所得):
分类
聚类
推荐
句子向量
短文本分类
2)两种实现方式
Skip-gram:用一个词语作为输入,来预测它周围的上下文。同义词
CBOW :用一个词语的上下文作为输入,来预测这个词语本身。完形填空
2、已实现word2vec的工具
1)Genvim,python版本
2)Spark.ml word2vec,DataFrames实现Skip-gram模型
3)Spark.mllib word2vec,RDD实现Skip-gram模型
3、Spark mllib word2vec实践&tips