KDD2020|推荐系统中基于属性的无偏学习：算法和案例研究

最新推荐文章于 2023-02-16 11:05:01 发布

EdmundYan

最新推荐文章于 2023-02-16 11:05:01 发布

阅读量666

点赞数

分类专栏： KDD2020 论文阅读文章标签：人工智能推荐系统 google drive

本文链接：https://blog.csdn.net/EdmundYan/article/details/117675253

版权

论文阅读同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

KDD2020

9 篇文章 1 订阅

订阅专栏

该研究关注推荐系统中的偏见问题，如位置偏差和先前模型偏差。提出了一种新的基于属性的倾向性估计框架，通过估计不同条件（如物品位置）下的倾向性分数，来减少这些偏见。使用EM算法估计模型参数，并在谷歌云盘搜索和相关人物文档推荐上进行了实验验证，证明了框架的有效性。这种方法可以在不损害用户体验或大幅改变服务系统的情况下，用于跨平台的无偏学习。

摘要由CSDN通过智能技术生成

Attribute-based Propensity for Unbiased Learning in Recommender Systems: Algorithm and Case Studies

https://dl.acm.org/doi/pdf/10.1145/3394486.3403285

背景

由于推荐系统中存在大量的偏见信息，例如位置偏差和“先前模型偏差”。位置偏差：用户会倾向于点击更显眼位置的物品。“先前模型偏差”：先前部署模型会显著影响后续产生的训练数据，导致新模型会延续先前模型的偏差。

文中指出，用户在推荐内容之外，自己搜索浏览的物品/网页能代表用户的真实兴趣，并且不会带来位置和“先前模型偏差”。所以提出了一个可以估计不同属性(位置、设备)等倾向性分数的方法，并且普通的推荐模型也能使用计算得到的倾向性分数。

基于属性的倾向估计

有偏模型

文章假设用户点击物品变量C(C=1表示点击)是基于两个伯努利分布的变量E和R。E=1时表示用户查看了当前物品，R=1时表示物品与用户是相关的。

其中[a]表示影响用户点击的条件，例如物品在UI展示中的位置。

文中假设用户检查某个项目的概率仅仅基于偏差属性(例如物品位置)，而相关概率仅依赖于用户和物品自身。用以下公式表示用户对项目的倾向性和相关性：

参数估计

基于隐式反馈的倾向性估计模型的对数似然如下：

目标是找到最佳的参数 $\theta _{[a]}$ 和 $\gamma _{I,u}$ ，文中使用了EM算法来估计这两个参数：

最大化步骤：

后续在对不同的偏差情况下时，只要修改[a]的值就可以估计不同情况下的倾向性分数。例如位置偏差就是使[a=k]其中k表示的就是位置信息。如果还有不同设备的情况下，可以表示为[k,p]其中k表示位置，p表示设备。

实验

文章后续在google drive上对上述的倾向性估计方法做了测试。

在谷歌云盘的搜索上使用了倾向性估计，得出了在此项功能上不同位置的倾向性分数。

在相关人物文档推荐上，训练得到8个不同位置的倾向性分数。

总结

文中提出了一个新的基于属性的倾向性估计框架，用于推荐系统中的无偏学习。除了可以计算传统的位置偏差外，文中的框架允许跨不同平台进行倾向性估计，不局限于某一个UI，并使用离线训练，既不损害用户体验，也不需要显著的服务系统更改。

Ref:Qin Z, Chen S J, Metzler D, et al. Attribute-based propensity for unbiased learning in recommender systems: Algorithm and case studies[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2359-2367.