KDD2020|推荐系统中基于属性的无偏学习:算法和案例研究

该研究关注推荐系统中的偏见问题,如位置偏差和先前模型偏差。提出了一种新的基于属性的倾向性估计框架,通过估计不同条件(如物品位置)下的倾向性分数,来减少这些偏见。使用EM算法估计模型参数,并在谷歌云盘搜索和相关人物文档推荐上进行了实验验证,证明了框架的有效性。这种方法可以在不损害用户体验或大幅改变服务系统的情况下,用于跨平台的无偏学习。
摘要由CSDN通过智能技术生成

Attribute-based Propensity for Unbiased Learning in Recommender Systems: Algorithm and Case Studies

https://dl.acm.org/doi/pdf/10.1145/3394486.3403285

背景

由于推荐系统中存在大量的偏见信息,例如位置偏差和“先前模型偏差”。位置偏差:用户会倾向于点击更显眼位置的物品。“先前模型偏差”:先前部署模型会显著影响后续产生的训练数据,导致新模型会延续先前模型的偏差。

文中指出,用户在推荐内容之外,自己搜索浏览的物品/网页能代表用户的真实兴趣,并且不会带来位置和“先前模型偏差”。所以提出了一个可以估计不同属性(位置、设备)等倾向性分数的方法,并且普通的推荐模型也能使用计算得到的倾向性分数。

基于属性的倾向估计

有偏模型

文章假设用户点击物品变量C(C=1表示点击)是基于两个伯努利分布的变量E和R。E=1时表示用户查看了当前物品,R=1时表示物品与用户是相关的。

其中[a]表示影响用户点击的条件,例如物品在UI展示中的位置。

文中假设用户检查某个项目的概率仅仅基于偏差属性(例如物品位置),而相关概率仅依赖于用户和物品自身。用以下公式表示用户对项目的倾向性和相关性:

参数估计

基于隐式反馈的倾向性估计模型的对数似然如下:

目标是找到最佳的参数\theta _{[a]}\gamma _{I,u},文中使用了EM算法来估计这两个参数:

最大化步骤:

后续在对不同的偏差情况下时,只要修改[a]的值就可以估计不同情况下的倾向性分数。例如位置偏差就是使[a=k]其中k表示的就是位置信息。如果还有不同设备的情况下,可以表示为[k,p]其中k表示位置,p表示设备。

实验

文章后续在google drive上对上述的倾向性估计方法做了测试。

在谷歌云盘的搜索上使用了倾向性估计,得出了在此项功能上不同位置的倾向性分数。

在相关人物文档推荐上,训练得到8个不同位置的倾向性分数。

总结

文中提出了一个新的基于属性的倾向性估计框架,用于推荐系统中的无偏学习。除了可以计算传统的位置偏差外,文中的框架允许跨不同平台进行倾向性估计,不局限于某一个UI,并使用离线训练,既不损害用户体验,也不需要显著的服务系统更改。

Ref:Qin Z, Chen S J, Metzler D, et al. Attribute-based propensity for unbiased learning in recommender systems: Algorithm and case studies[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2359-2367.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值