自然语言处理(NLP)中词向量质量依赖三个点:训练语料、训练算法、词向量长度。
用神经网络训练语料模型的思想最早由百度的徐伟提出。
Bengio 于2003年发表JMLR上 A Neural Probabilistic Language Model . 其后有一系列研究,包括谷歌 Tomas Mikolov 团队的 word2vec。
自然语言处理领域的特征提取包括如下两种统计学习方法:
- 统计词共同出现的次数(LDA,一种贝叶斯概率模型)。
- 根据相似的上下文(word2vec, 即 NN )。
向量是数学空间中的单词,向量的每一维是数学空间中的字母,向量的描述构成了矩阵空间中的语言。