一. 京东在强化学习的几篇文章
- Deep Reinforcement Learning for List-wise Recommendations
本文将推荐的过程定义为一个序列决策的问题,通过Actor-Critic算法来进行 List-wise 的推荐。
模型结构:Actor-Critic
主要贡献:
- 构建了一个线上环境仿真器,用于输出从未出现过的状态动作对的奖励,然后可线下对Actor-Critic网络参数进行训练。
- 构建了基于强化学习的List-wise推荐系统。
2. Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning
主要创新点:考虑负反馈以及商品的偏序关系,并将这种偏序关系建模到DQN的loss函数中。
若一个商品能够找到其偏序关系(两个商品必须是同一类别,用户反馈不同,推荐时间要相近)的物品,此时模型即希望预估的Q值和实际的Q值相近,同时又希望有偏序关系的两个商品的Q值差距越大越好。
框架: