前言
最简单的词表示,就是one-hot
。one-hot
的缺点:每个类别之间相互独立,无法体现内部连续型的关系。Word2Vec
通过Embedding
层将one-hot Encoder
转化为低维度的连续值(稠密向量),并且其中意思相近的词将被映射到向量空间中相近的位置。
本质上,Word2vec属于一种DNN神经网络,主要在NLP领域里,学习词语的泛化向量表示,做更好的语义理解。
一、原理
Word2vec
有两类训练方法:CBOW和Skip-Gram。
- CBOW:根据周围词,预测中心词。
- 论文:《Efficient Estimation of Word Representations in Vector Space》
- https://arxiv.org/pdf/1301.3781.pdf
- Skip-Gram:根据中心词,预测周围词。
- 论文:《Distributed Representations of Words and Phrases and their Compositionality》
- https://arxiv.org/pdf/1310.4546.pdf