参考论文:Efficient Estimation of Word Representations in
Vector Space
One-hot Represention
在深度学习没有如此如火如荼之前,语言模型的建立依靠的一般还是SVM,CRF等算法,为了将自然语言符号、数值化,One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。
每个词都是茫茫词海中的一个1。
假设语料库中有V个词,那么语料库中的任一词都可以表示为一个长度为V的向量,另外,每个词都有一个unique的id,one-hot将向量中词id相应位置置为1,其他位置为0来表示这个词。因而,可以想象如果将V个词的one-hot represention形成V*V的矩阵,那么这个矩阵是多么稀疏。
优点:简单
缺点:1>容易形成词汇鸿沟,即不能刻词与词之间的相似性。2>当V足够大时,容易形成维数灾难
Distributed Representation
**
NNLM(Feedforward Neural Net Language Model )
**
针对One-hot Representation存在的问题,Distributed Representation最早有Hinton在1986年在《Learning distributed representations of concepts》提出,用一个具有固定长度的向量来表示一个词。Bengio在2003提出了NNLM语言模型训练词向量。NNLM的前向神经网络涉及到