文本处理——词向量

Word2Vec

Google
这里写图片描述

连续词袋模型(continuous bag of words, CBOW)

连续词袋模型用一个中心词在文本序列前后的背景词来预测该中心词

t=1TP(w(t)w(tm),,w(t1),w(t+1),,w(t+m)). ∏ t = 1 T P ( w ( t ) ∣ w ( t − m ) , … , w ( t − 1 ) , w ( t + 1 ) , … , w ( t + m ) ) .

上式的最大似然估计与最小化以下损失函数等价:

t=1TlogP(w(t)w(tm),,w(t1),w(t+1),,w(t+m)). − ∑ t = 1 T log P ( w ( t ) ∣ w ( t − m ) , … , w ( t − 1 ) , w ( t + 1 ) , … , w ( t + m ) ) .

设中心词 wc 在词典中索引为 c,背景词 wo1,,wo2m w o 1 , … , w o 2 m 在词典中索引为 o1,,o2m o 1 , … , o 2 m ,损失函数中的给定背景词生成中心词的概率可以通过 softmax 函数定义为

P(wcwo1,,wo2m)=exp(uc(vo1++vo2m)/(2m))iVexp(ui(vo1++vo2m)/(2m)). P ( w c ∣ w o 1 , … , w o 2 m ) = exp ( u c ⊤ ( v o 1 + … + v o 2 m ) / ( 2 m ) ) ∑ i ∈ V exp ( u i ⊤ ( v o 1 + … + v o 2 m ) / ( 2 m ) ) .

logP(wcwo1,,wo2m)voi=12m(ucjVexp(ujvc)iVexp(uivc)uj). ∂ log P ( w c ∣ w o 1 , … , w o 2 m ) ∂ v o i = 1 2 m ( u c − ∑ j ∈ V exp ( u j ⊤ v c ) ∑ i ∈ V exp ( u i ⊤ v c ) u j ) .

logP(wcwo1,,wo2m)voi=12m(ucjVP(wjwc)uj). ∂ log P ( w c ∣ w o 1 , … , w o 2 m ) ∂ v o i = 1 2 m ( u c − ∑ j ∈ V P ( w j ∣ w c ) u j ) .

训练结束后,对于词典中的任一索引为 i 的词,我们均得到该词作为背景词和中心词的两组词向量 v_i 和 u_i。在自然语言处理应用中,我们会使用连续词袋模型的背景词向量

跳字模型(Skip-gram)

在跳字模型中,我们用一个词来预测它在文本序列周围的词。

假设词典索引集 V V 的大小为

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值