- 强化学习
我在机器学习读书会的分享slides,关于DP、MC、TD方法:
https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q
也可见我的博客:https://www.cnblogs.com/yaoyaohust/p/10917258.html
内容是总结Reinforcement Learning: An Introduction 第4-6章
- 推荐
强化学习在阿里的技术演进与业务创新
https://www.jiqizhixin.com/articles/2018-02-06-3
Chapter4 强化学习在淘宝锦囊推荐系统中的应用
用途:
细化搜索的关键词卡片
状态:
用户:性别,年龄,购买力,偏好,当前的行为,page_id,查看/点击的商品特征
Query:类型,此类型下的用户整体偏好
动作:
锦囊:类型(>2万种)
回报:
R1 = is_click * (1 + alpha * exp{-page_num})
R2 = is_click * exp{-item_click_this_user_per_recent_100_pv)
R = r1 + beta * r2
算法:
value_based:DQN
实际经验:
用户的分布随时间快速变化: 训练过程中采样策略考虑用户性别、年龄、购买力,替代随机抽样
点击意愿随时间变化(晚上ctr总体高于白天):reward基准约减:随机选择用户,并使用ctr模型作用于他们,计算reward作为benchmark。RL的reward需要减去这个benchmark reward。
Chapter5 基于强化学习的引擎性能优化
用途:
做排序模型的特征选择,实际意义不大。
- 强化学习在美团“猜你喜欢”的实践
https://tech.meituan.com/2018/11/15/reinforcement-learning-in-mt-recommend-system.html
用途:
调整“猜你喜欢”信息流推荐多目标模型融合超参数,实际意义有限。
- 搜索
Reinforcement Learning to Rank with Markov Decision Process
http://www.bigdatalab.ac.cn/~junxu/publications/SIGIR2017_RL_L2R.pdf
State:
Rank pos, cand doc set
(t, {D_t})
Action(s_t):
a_t = d_idx(a_t) from {D_t}
Trans(S,A):
(t, {D_t}) -> (t+1, {D_t}\d_idx(a_t))
Reward(S,A):
R(s_t, a_t) =
2^y_idx(a_t) - 1 for t=0;
(2^y_idx(a_t) - 1) / log_2(t+1) for t>0
Policy(a|s):
exp{w^T d_idx(a_t)} / sum_{a in A(s_t)} exp{w^T d_idx(a_t)}
Learning:
Policy gradient
- 相关文献
DQN:Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning. Nature. 518 (7540): 529-533, 2015.
深度强化学习综述(上):https://zhuanlan.zhihu.com/p/48867049
https://www.quora.com/Are-there-some-recommendation-systems-that-use-reinforcement-learning