Comprehensive Analysis of Negative Sampling in Knowledge Graph Representation Learning

Comprehensive Analysis of Negative Sampling in Knowledge Graph Representation Learning

NS损失在KGE中发挥重要作用,如果不适当选择margin term和在NS损失中负样本的数量等超参数,KGE的性能会下降。当前,经验超参数调整是以计算时间为代价解决这个问题。为了解决上述问题,作者从理论上分析了NS损失来帮助参数调整和更好的理解NS损失在KGE学习中的使用。由于KGE往往存在很严重的数据稀疏问题,作者还从理论上提出了专门针对KGE中NS损失的二次采样方法。
最初的NS损失被设计成与基于内积的评分方法一起使用,对值范围没有限制,但一些KGE模型例如:TransE和RotatE使用的是值范围受p-norm-distance的限制。为了将NS损失应用于基于距离的KGE模型,引入了边际项作为调整得分函数值范围的启发式方法。在某些KGE研究中,NS损失是被负样本数量进行归一化的。
SANS通常用于减少不携带有意义信息的负样本对学习过程的影响。
接下来,看一下原始的NS loss 和在KGE中使用的NS loss之间的区别:
原始的NS loss:
在这里插入图片描述
在KGE中使用的NS loss:
在这里插入图片描述
通过对比上面的两个公式(2)和(3),能得出以下proposition:

proposition1:

(2)和(3)有相同的目标分布:
在这里插入图片描述

proposition2:

在公式3中,当存在(x,y)在这里插入图片描述
基于距离的得分函数并不能达到最优解,为了能够使基于距离的方法达到最优解,margin term 应该满足:在这里插入图片描述
其中|Y|表示标签的数量

proposition3:

在公式3中,在这里插入图片描述
影响NS损失的梯度

proposition4:

和proposition2类似,在公式2中,当存在在这里插入图片描述
时,基于距离的得分函数并不能达到最优解。

proposition5:

当负样本数量v足够大时,V能够影响公式2中的NS损失梯度,但并不能影响公式3中的NS损失梯度。

proposition6:

在这里插入图片描述

KGE的二次采样

在这里插入图片描述

在这里插入图片描述

在word2vec的二次采样中,将B(x)看作B(x,y)
在这里插入图片描述
接下来对公式10改进:
在这里插入图片描述
对公式12再进行改进:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值