Word2Vec

本文深入探讨Word2Vec,一种词向量表示方法,涉及语言模型如N-gram、NNLM、RNNLM,重点介绍skip-gram和CBOW模型,以及层次Softmax和负采样等关键技术,旨在理解其背后的理论和应用。
摘要由CSDN通过智能技术生成

背景知识

Word2Vec是一种词向量的表示方式,是在论文《Efficient Estimation of Word Representations in
Vector Space》中提出,有两种网络模型来训练(Skip-gram和CBOW模型)。由Word2Vec训练出来的词向量可以提升下游任务的性能、效果。

语言模型

语言模型是计算一个句子是句子的概率模型,即判断该句子是否合乎语义和语法。语言模型的建立方法有:基于专家语法规则的语言模型、统计语言模型、神经网络语言模型。
**基于专家语法规则的语言模型:**是由语言学专家设置一套规则而形成的语言模型,例如主谓宾结构的。
**统计语言模型:**基于统计概率的语言模型,即判断这个句子形成的概率。P(S)是句子的概率,P(W_i)是每个单词的概率。
P ( S ) = P ( W 1 , W 2 , . . . , W n ) = P ( W 1 ) P ( W 2 ∣ W 1 ) P ( W 3 ∣ W 1 W 2 ) . . . P ( W n ∣ W 1 W 2 W 3 . . . W n − 1 ) P{\left({S}\right)}=P{\left({W_1,W_2,...,W_n}\right)}=P{\left({W_1}\right)}P{\left( {W_2\left|W_1\right. }\right)}P{\left( {W_3\left|W_1W_2\right. }\right)}...P{\left( {W_n\left|W_1W_2W_3...W_n-1\right. }\right)} P(S)=P(W1,W2,...,Wn)=P(W1)P(W2W1)P(W3W1W2)...P(WnW1W2W3...Wn1)
每个单词的概率是基于一定文档(语料)来求取的,即有一定数量的文档,统计每个单词在所有文档中出现的次数,再除以所有单词的总数,进而求得该单词的频率,用频率代替概率。
P ( W i ) = P ( c o u n t (

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值