推荐知识图上的强化负抽样

阅读笔记

文章:Reinforced Negative Sampling over Knowledge Graph for Recommendation

动机:

目前的研究大多是从未观测数据中进行负采样,为推荐模型的训练提供负信号。然而,现有的负样本策略,无论是静态的还是自适应的,都不足以产生高质量的负样本,既能提供模型训练的信息,又能反映用户的真实需求。

静态采样:使用固定的分布从缺失数据中采样。主要的限制是它独立于模型的状态,容易采样出低质量的负样本。

自适应采样:主要采样hard negatives。从数值优化的角度,hard negatives是有效的,但可能在testing data里是true positive,降低了模型的有效性。

incorporate extra behavior data来提升采样器:这些数据提供确定的true negative是,但是与大量缺失数据相比,规模有限。 因此,仅仅使用它们作为负反馈是相当不够的(甚至比均匀采样器[6]表现更差)。对于这类方法,仍然需要策略来有效地从大量缺失数据中提取出负信号。

方法:

假设物品知识图(KG)提供了物品和KG实体之间丰富的关系,可以用来推断信息和事实性的负样本。作者开发了一种新的负抽样模型——知识图政策网络(Knowledge Graph Policy Network, KGPolicy),它作为一种强化学习代理来探索高质量的负样本。通过目标积极的交互来导航,自适应地产生negative sample用于推荐器的训练。

模型认为高质量的负样本应满足的两个要求:
(1)informative。即当前模型对其评价较高,若将其更新为负反馈,模型参数将发生显著变化。
(2)factual。即true negative。

之前的方法使用kg的假设:与KG实体重叠的items,没有暴露但用户感兴趣。
作者的想法:在现实世界中,用户通常是通过某些方式意识到这些items,但没有采纳它们,这表明用户可能真的对这些东西不感兴趣。

负采样的挑战:(1)随着路径搜索步骤增加,规模急剧增加。(2)lack of ground-true,需要采样器探测路径携带的负信号。

作者提出的模型:KGPolicy。核心是设计好的勘探操作,从正向项目导航,选择两个顺序的邻居(例如,一个KG实体和一个项目)访问。

负采样器形式化表示:
在这里插入图片描述
使用强化学习来采样高质量的负样本,图卷积网络获取节点表示,注意力机制评定邻居实体的possibilities。

麻了,不写了!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值