论文阅读
word2vec是基于单词的上下文语境学习单词的词向量表示的一种技术,相比于one-hot编码高维、稀疏的特点,word2vec可以学习到低维、连续的词向量表示,同时编码的词向量可以很好的度量单词的语义相似性。相关论文可以参考:Efficient Estimation of Word Representations in Vector Space 。
模型解析
为了学习单词分布式的词向量表示,word2vec提出了两种模型CBOW和Skip-gram,其中CBOW是基于单词的上下文单词预测中心单词,而Skip-gram刚好相反,基于中心单词预测单词的上下文。另外,为了加快模型学习的速度,文中提出了两种技术hierarchical softmax和negative sampling。详细的参考资料:word2vec 中的数学原理详解。
模型实战
word2vec使用工具包括gensim和fasttext两种,其中gensim使用可以参考:gensim Word2Vec 训练和使用,而fasttext的使用可以参考:Word representations。
参考文献
- https://arxiv.org/abs/1301.3781v3
- https://www.cnblogs.com/peghoty/p/3857839.html
- https://blog.csdn.net/qq_19707521/article/details/79169826
- https://fasttext.cc/docs/en/unsupervised-tutorial.html