背景区域为负样本什么意思_Negative Sampling负采样采的究竟是什么

/*以下为个人学习分享内容,如有误欢迎指正、交流*/

前言

在阅读NLP领域的论文中,nagative sampling可谓是一个高频词,同理解embedding的最佳实站方法一致,明白了word2vec中的nagative sampling, 也就明白了负采样的本质意义是什么。先说结论:负抽样的目的是为了最终输出的上下文单词(正样本),在采样过程中应该保留下来并更新,同时也需要采集部分负样本(非上下文单词)。
通过负采样,在更新隐层到输出层的权重时,只需更负采样的单词,而不用更新词汇表所有单词,节省计算量。在word2vec中的解释说明可参考:

梦里寻梦:(三)通俗易懂理解——Skip-gram的负采样​zhuanlan.zhihu.com

此篇换个角度去理解负采样——从知识图谱的嵌入说起。

知识图谱的嵌入

knowledge graph(KG)可以很好弥补机器学习中的推理和逻辑推断缺陷问题,因为它能够很好地去把现实中的知识结构化地表示起来,做KG embedding的原因也很简单,通过把三元组向量化之后,可以更方便地进行关系运算。评分函数定义和相关例子如下:

692125e0dbd81f5bc58dc34a942376c4.png
关系定义

86b55e4c80e5fedf193d4abbe1627009.png
以TransE和DistMult的评估函数为例

8111ed540ca7a12483b1a793e3245780.png
正样本上最大化,负样本上最小化

b5c5fdfab96640afadd2e91c3f2fe3c6.png
以(Obama,MmarriedTo, Michelle)的正样例和(Obama,MmarriedTo, Trump)的负样例为例,就是要使得前者值越大,后者值越小

知识图谱为什么要负采样

这和KG的创建是相关的, A KG only contains observerd facts(positive triplets) Non-observed ones are assumed to be negative with large probability, 即知识图谱只包含观察者事实(正三元组样例),未观测到的事实是被分为负例的概率很大。

4bc2ea0e942f6a5ab8bd8b096c795dd7.png
仍以此关系为例,一般只观测到positive

我们需要在没有观测到的三元组中找出和当前三元组对应的负样本,且负样本的选择是有区分和技巧的,如果负样本选择无效,模型的performance反而会更差。

b0c561ef933ac712a156ae26ad29ffc7.png
乔布斯创建了苹果是一个事实,从语义上说,我们更希望得到比尔盖茨的负样例,因为baseball的例子是无实际意义的,它连人名都不是

当然,Numbere of negative samples( unobserved triplets) is very large, considering all of them is computationally infeasible

知识图谱中两两实体间未标注的情况是大多数,从计算的角度说,不可能将所有都标为negative,因此negative sampling 对于KGE来说不仅是保障prediction准确性的手段、同时也是为了让KGE的training能更快,回到word2vec模型中,

82bacd296e59dccf18f9ef6ec2a8813c.png

需要的仍然是高质量的负样例。

知识图谱如何进行负采样

伪代码如下

645cacbba141404f4018f4b4baee21f9.png

采用uniform sampling无法区分low-quality 和 high-quality,如果采样到的例子明显不符合知识库规范也会反向弱化模型性能,具体可参考

Dual Transfer Learning for Neural Machine Translation with Marginal Distribution Regularization​www.microsoft.com
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值