深度学习NLP笔记(三):GloVe模型

GloVe模型利用词的共现信息来构建词向量,通过概率比值表达词之间的关系。文章介绍了如何通过共现矩阵计算词共现概率,展示了如何构造标量函数并引入偏移向量解决不对称问题,最后提出了基于损失函数的优化目标,以更好地捕获词频统计信息。
摘要由CSDN通过智能技术生成

GolVe模型使用了词与词的共现信息。定义X为共现矩阵,则xij为词j出现在词i环境中的次数。令 x i = ∑ k x i k x_{i}=\sum_{k}x_{ik} xi=kxik为任意词出现在词i环境中的次数,则:
P ( i j ) = P ( j ∣ i ) = x i j x i P(ij)=P(j|i)=\frac{x_{ij}}{x_{i}} P(ij)=P(ji)=xixij
  P(ij)为词j出现在词i环境中的概率,也成为词i和词j的共现概率。
  例如,对于语料:

  • I like deep learning.
  • I like NLP.
  • I enjoy flying.
    可以得到共现矩阵:
    在这里插入图片描述
    可以得到 P ( ′ I ′ , ′ l i k e ′ ) = 2 3 P('I','like')=\frac{2}{3} P(I,like)=32
    那么共现概率到底有什么用呢?举一个例子。
wk “solid” “gas” “water”
p 1 = P ( w k ∣ " i c e " ) p_{1}=P(w_{k} \mid "ice") p1=P(wk"ice") 0.00019 0.000066 0.003
p 2 = P ( w k ∣ " s t e a m " ) p_{2}=P(w_{k} \mid "steam") p2=P(wk"steam") 0.000022 0.00078 0.0022
p 1 / p 2 p_{1}/p_{2} p1/p2 8.9 0.085 1.36

从直观上我们知道,“solid”和"ice"很接近,但是和"steam"相差很远,因此 P (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值