强化学习用在推荐和搜索领域的文献调研

  • 强化学习

我在机器学习读书会的分享slides,关于DP、MC、TD方法:

https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q

也可见我的博客:https://www.cnblogs.com/yaoyaohust/p/10917258.html

内容是总结Reinforcement Learning: An Introduction 第4-6章

 

  • 推荐

强化学习在阿里的技术演进与业务创新

https://www.jiqizhixin.com/articles/2018-02-06-3

 

Chapter4 强化学习在淘宝锦囊推荐系统中的应用

用途:

细化搜索的关键词卡片


状态:

用户:性别,年龄,购买力,偏好,当前的行为,page_id,查看/点击的商品特征

Query:类型,此类型下的用户整体偏好


动作:

锦囊:类型(>2万种)


回报:

R1 = is_click * (1 + alpha * exp{-page_num})

R2 = is_click * exp{-item_click_this_user_per_recent_100_pv)

R = r1 + beta * r2


算法:

value_based:DQN


实际经验:

用户的分布随时间快速变化: 训练过程中采样策略考虑用户性别、年龄、购买力,替代随机抽样

点击意愿随时间变化(晚上ctr总体高于白天):reward基准约减:随机选择用户,并使用ctr模型作用于他们,计算reward作为benchmark。RL的reward需要减去这个benchmark reward。

 

Chapter5 基于强化学习的引擎性能优化

用途:

做排序模型的特征选择,实际意义不大。

 

  • 强化学习在美团“猜你喜欢”的实践

https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html

用途:

调整“猜你喜欢”信息流推荐多目标模型融合超参数,实际意义有限。

  

  • 搜索

Reinforcement Learning to Rank with Markov Decision Process

http://www.bigdatalab.ac.cn/~junxu/publications/SIGIR2017_RL_L2R.pdf


State:

Rank pos, cand doc set

(t, {D_t})


Action(s_t):

a_t = d_idx(a_t) from {D_t}


Trans(S,A):

(t, {D_t}) -> (t+1, {D_t}\d_idx(a_t))


Reward(S,A):

R(s_t, a_t) =

2^y_idx(a_t) - 1 for t=0;

(2^y_idx(a_t) - 1) / log_2(t+1) for t>0


Policy(a|s):

exp{w^T d_idx(a_t)} / sum_{a in A(s_t)} exp{w^T d_idx(a_t)}


Learning:

Policy gradient

 

  • 相关文献

DQN:Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning. Nature. 518 (7540): 529-533, 2015.

深度强化学习综述(上):https://zhuanlan.zhihu.com/p/48867049

https://www.quora.com/Are-there-some-recommendation-systems-that-use-reinforcement-learning

转载于:https://www.cnblogs.com/yaoyaohust/p/10342535.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值