Word2Vec
背景知识
Word2Vec是一种词向量的表示方式,是在论文《Efficient Estimation of Word Representations in
Vector Space》中提出,有两种网络模型来训练(Skip-gram和CBOW模型)。由Word2Vec训练出来的词向量可以提升下游任务的性能、效果。
语言模型
语言模型是计算一个句子是句子的概率模型,即判断该句子是否合乎语义和语法。语言模型的建立方法有:基于专家语法规则的语言模型、统计语言模型、神经网络语言模型。
**基于专家语法规则的语言模型:**是由语言学专家设置一套规则而形成的语言模型,例如主谓宾结构的。
**统计语言模型:**基于统计概率的语言模型,即判断这个句子形成的概率。P(S)是句子的概率,P(W_i)是每个单词的概率。
P ( S ) = P ( W 1 , W 2 , . . . , W n ) = P ( W 1 ) P ( W 2 ∣ W 1 ) P ( W 3 ∣ W 1 W 2 ) . . . P ( W n ∣ W 1 W 2 W 3 . . . W n − 1 ) P{\left({S}\right)}=P{\left({W_1,W_2,...,W_n}\right)}=P{\left({W_1}\right)}P{\left( {W_2\left|W_1\right. }\right)}P{\left( {W_3\left|W_1W_2\right. }\right)}...P{\left( {W_n\left|W_1W_2W_3...W_n-1\right. }\right)} P(S)=P(W1,W2,...,Wn)=P(W1)P(W2∣W1)P(W3∣W1W2)...P(Wn∣W1W2W3...Wn−1)
每个单词的概率是基于一定文档(语料)来求取的,即有一定数量的文档,统计每个单词在所有文档中出现的次数,再除以所有单词的总数,进而求得该单词的频率,用频率代替概率。
P ( W i ) = P ( c o u n t (