GloVe:Word表示的全局向量

原论文:

Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]//
Conference on Empirical Methods in Natural Language Processing. 2014:1532-1543.

参考博客:

https://blog.csdn.net/coderTC/article/details/73864097

https://blog.csdn.net/mr_tyting/article/details/80180780

 

根据博客的翻译粗略了解Glove算法,但是说得不详细,回过头再看原论文。

补充一些本人的理解:

原论文为什么说下面这个公式Pik/Pjk比简单的Pik更能判断词i和k或者j和k是联系性大or小?

我是这样理解的:Pik是一个数值,怎么衡量这个数值大还是小,换言之,怎么根据Pik判断词i和k的联系大小,需要比较,才有大小之分,例如,i和k的联系大(小),j和k的联系小(大),那么Pik/Pjk就是大于(小于)1的数,那么就能判断分子(分母)i和k(j和k)的联系大。其他情况,i和k,j和k联系都比较大或小,论文中得出的统计规律是Pik/Pjk接近1,这种情况下无法去判断i和k(j和k)联系大小的。因此,我觉得训练集样本应该是三个词i,j,k组合而成的,并且根据统计数据Pik/Pjk不能接近1,才能学习出体现两个词之间的联系的词向量表示(训练过程中的参数),但是论文中为了简化计算,让模型学习Pik,输入样本是两个词。

但是!论文中在推理的过程中,本来打算要学习下面的三个词输入的函数F(i,j,k)

推理到后面,为了简化计算,把三维的样本降低为二维,学习F(i,k)

     

由上面两个式子得:F(wi内积wk) = exp(wi内积wk),这么一看,其实F也就模型并不是神经网络,仅仅只是个二元指数函数。

拟合(训练)上述二元指数函数F,训练集:输入为词对(i,j),标签为(pij),参数为wi,wj,也就是词i,j的向量表示

用下面的代价函数优化得到参数,实际上就是最小二每个样本乘了个和词对出现频率正相关的权值,具体推导请看原论文。

词向量做为参数,在训练过程中得出,学习到的模型输入是词i和k,输出是i和k的联系Pik。不过该模型最大功能是训练出能体现不同词之间的联系性(词向量相乘)的词向量表示。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值