好多东西要学啊,开个专题讲 Word2vec吧
论文篇
Mikolov :
- 『Distributed Representations of Sentences and Documents』
- 『Efficient estimation of word representations in vector space』
Xin Rong :
- 『word2vec Parameter Learning Explained』:
- Hierarchical Softmax
- Negative Sampling
- https://zhuanlan.zhihu.com/p/35074402
- 负采样的思想是每次训练只随机取一小部分的负例使他们的概率最小,以及对应的正例概率最大。随机采样需要假定一个概率分布,word2vec中直接使用词频作为词的分布,不同的是频数上乘上0.75,相比于直接使用频次作为权重,取0.75幂的好处可以减弱不同频次差异过大带来的影响,使得小频次的单词被采样的概率变大。
- https://blog.csdn.net/mytestmy/article/details/26961315
- n-gram:
- N-gram就是只管这个词前面的n-1个词,加上它自己,总共n个词。
- 在实践中用的最多的就是bigram和trigram
博客篇
- https://zhuanlan.zhihu.com/p/26306795
- 什么是word embedding