Glove词向量资料

很棒的资料:https://blog.csdn.net/coderTC/article/details/73864097

J = ∑ i j N f ( X i j ) ( v i T v j + b i + b j − l o g ( X i j ) ) 2 J = \sum_{ij}^N f(X_{ij})(v_i^Tv_j + b_i + b_j - log(X_{ij}))^2 J=ijNf(Xij)(viTvj+bi+bjlog(Xij))2

Glove基于词的共现矩阵 X X X来学习词向量,考虑了全局统计信息,同时设置了权重函数 f f f,使得当词频过高的时候,权重没有过分增大。

具体来说,在Glove中,不是将整个corpus作为输入,而是统计出词的共现矩阵X,后面基于这个X进行学习。
统计共现矩阵X:
X i , j X_{i,j} Xi,j表示在一个窗口中,单词i和单词j同时出现次数
这个过程是,依次将语料库里的单词作为窗口中心词,然后确定其左右两边的单词,从而得到一个窗口。 X 中 心 词 , 左 右 两 边 的 词 + = 1 X_{中心词,左右两边的词} += 1 X+=1

从代价函数看出,Glove没有使用神经网络的方法
J = ∑ i j N f ( X i j ) ( v i T v j + b i + b j − l o g ( X i j ) ) 2 J = \sum_{ij}^N f(X_{ij})(v_i^Tv_j + b_i + b_j - log(X_{ij}))^2 J=ijNf(Xij)(viTvj+bi+bjlog(Xij))2

作者是从共现矩阵中发现了一定的规律,想让词向量与共现矩阵有很好的一致性,从而说明了词向量中也蕴含了共现矩阵中所蕴涵的信息。
上面列出的参考链接,详细地介绍了Glove优化目标是怎么得到的。
优化目标中, f f f函数是一个加权作用,本着共现频率越高,权重越大的原则。同时,为了当频率过高时,权重不应过分增大,作者设计的权重函数是:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值