Causal Embeddings for Recommendation》笔记

Another url:https://bulihanjie.github.io/2019/02/28/Causal-Embeddings-for-Recommendation笔记/#more

摘要

应用中期望使用推荐策略来推荐最适合的结果来改变用户行为,最大化推荐收益,如极大化点击率等。但由于推荐系统改变了用户的行为方式,使得用户的日志行为和原本的用户自然行为有了比较大的差异。简单的在用户日志上训练和评估推荐策略,产生的结果和用户的自然行为产生比较大的误差。论文中提出一种矩阵分解的方法,利用随机曝光的数据,得到了更好的结果。

参考资料

Bonner S, Vasile F. Causal embeddings for recommendation[C]//Proceedings of the 12th ACM Conference on Recommender Systems. ACM, 2018: 104-112.

介绍

应用的推荐策略向用户推送结果,然后用户点击、浏览的记录行为即用户日志。直接在用户日志上训练、评估推荐策略,除了产生的推荐结果和用户自然行为产生较大误差,也会使得频次高但历史悠久的商品依然被推荐很多。这个我比较深有感触,在实习期间发现,两个月前的内容依然被不断推荐给用户,由于内容本身与明星相关,点击率不会很低,可由于历史悠久点击率也上不去。对于这种比较旧的内容是应该降低推荐的频次,尝试推荐新的内容产生更好的收益。对于新内容缺乏训练数据,这方面就是多臂赌博机问题了。这是由于用户日志行为是被推荐策略改变的行为的偏好,如果能直接在用户的自然行为上进行策略学习,推荐的结果就是最符合用户的偏好。

用户的自然行为可以看作是向用户随机推荐商品产生的用户行为记录。由于随机策略不会改变商品曝光的概率分布(即是商品曝光概率是相同的),因此用户的行为记录能反映真实的偏好。但随机策略产生的收益较低,因为推荐的结果和用户的偏好通常是不吻合的。所以很难应用随机推荐策略产生大量的数据来学习好的推荐策略。

其中,两种策略的对比如下:

  1. 应用推荐策略,数据量大,精度高,但改变用户的自然行为。
  2. 随机策略,数据量少,精度低,反映用户的自然行为。

论文中采用多任务学习来训练模型,方法之前的证明感觉和方法没什么太大的关联,都是为了证明考虑自然行为的有效性。

对于推荐策略的学习目标是:
L t = ∑ ( i , j , y i j ) ∈ S t l i j t = L ( U Θ t , Y t ) + Ω ( Θ t ) L_{t}=\sum_{\left(i, j, y_{i j}\right) \in S_{t}} l_{i j}^{t}=L\left(U \Theta_{t}, Y_{t}\right)+\Omega\left(\Theta_{t}\right) Lt

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值