强化学习用在推荐和搜索领域的文献调研

最新推荐文章于 2022-08-15 15:35:47 发布

weixin_30758821

最新推荐文章于 2022-08-15 15:35:47 发布

阅读量216

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/yaoyaohust/p/10342535.html

版权

强化学习

我在机器学习读书会的分享slides，关于DP、MC、TD方法：

https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q

也可见我的博客：https://www.cnblogs.com/yaoyaohust/p/10917258.html

内容是总结Reinforcement Learning: An Introduction 第4-6章

推荐

强化学习在阿里的技术演进与业务创新

https://www.jiqizhixin.com/articles/2018-02-06-3

Chapter4 强化学习在淘宝锦囊推荐系统中的应用

用途：

细化搜索的关键词卡片

状态：

用户：性别，年龄，购买力，偏好，当前的行为，page_id，查看/点击的商品特征

Query：类型，此类型下的用户整体偏好

动作：

锦囊：类型（>2万种）

回报：

R1 = is_click * (1 + alpha * exp{-page_num})

R2 = is_click * exp{-item_click_this_user_per_recent_100_pv)

R = r1 + beta * r2

算法：

value_based：DQN

实际经验：

用户的分布随时间快速变化：训练过程中采样策略考虑用户性别、年龄、购买力，替代随机抽样

点击意愿随时间变化（晚上ctr总体高于白天）：reward基准约减：随机选择用户，并使用ctr模型作用于他们，计算reward作为benchmark。RL的reward需要减去这个benchmark reward。

Chapter5 基于强化学习的引擎性能优化

用途：

做排序模型的特征选择，实际意义不大。

强化学习在美团“猜你喜欢”的实践

https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html

用途：

调整“猜你喜欢”信息流推荐多目标模型融合超参数，实际意义有限。

搜索

Reinforcement Learning to Rank with Markov Decision Process

http://www.bigdatalab.ac.cn/~junxu/publications/SIGIR2017_RL_L2R.pdf

State:

Rank pos, cand doc set

(t, {D_t})

Action(s_t):

a_t = d_idx(a_t) from {D_t}

Trans(S,A):

(t, {D_t}) -> (t+1, {D_t}\d_idx(a_t))

Reward(S,A):

R(s_t, a_t) =

2^y_idx(a_t) - 1 for t=0;

(2^y_idx(a_t) - 1) / log_2(t+1) for t>0

Policy(a|s):

exp{w^T d_idx(a_t)} / sum_{a in A(s_t)} exp{w^T d_idx(a_t)}

Learning：

Policy gradient

相关文献

DQN：Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning. Nature. 518 (7540): 529-533, 2015.

深度强化学习综述（上）：https://zhuanlan.zhihu.com/p/48867049

https://www.quora.com/Are-there-some-recommendation-systems-that-use-reinforcement-learning

转载于:https://www.cnblogs.com/yaoyaohust/p/10342535.html

weixin_30758821

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习用在推荐和搜索领域的文献调研

强化学习我在机器学习读书会的分享slides，关于DP、MC、TD方法：https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q也可见我的博客：https://www.cnblogs.com/yaoyaohust/p/10917258.html内容是总结Reinforcement Learning: An Introduction ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。