- Richaed S.Sutton撰写的一本厚厚的书:《强化学习》 我整理的笔记
- 如何处理大规模离散动作空间
- 增强学习在推荐系统有什么最新进展?
- RL在推荐中的综述,用很短的篇幅把强化学习在推荐系统中的工作、问题全理顺了。Reinforcement Learning based Recommender Systems: A Survey
- 一个tutorial对理解RL在推荐中的off-policy evaluation非常有帮助,前半小时是精髓。 A Gentle Introduction to Recommendation as Counterfactual Policy Learning youtube链接 对应的slide pdf
- 离线强化学习。这是Sergey Levine(伯克利大学的强化学习巨佬)亲自一作写的综述和tutorial,2020年新出的,也是目前强化学习的一个重点研究方向。tutorial首页 综述:Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems;综述链接
- 强化学习算法实现的库, 清华本科生写的一个代码量很短的库,对比目前主流的库,效果和效率都好得多,非常强
- 强化学习在推荐中的交互环境:RecoGym 2018, PyRecGym 2019年,Recsim 2019年,Virtual-Taobao 2019年
- 如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成)
- 深度强化学习调参技巧:以D3QN、TD3、PPO、SAC算法为例
2021.11.10更新
(2 条消息) 强化学习的训练只用历史数据可行么? - 知乎
真离线强化 An Optimistic Perspective on Offline RL - 知乎
(2 条消息) 强化学习中A3C/DDPG/DPPO哪个效果更好? - 知乎
Top-K Off-Policy Correction for a REINFORCE Recommender System on Youtube | 王鸣辉的博客
(2 条消息) 增强学习在推荐系统有什么最新进展? - 知乎
RL — Model-based Reinforcement Learning | by Jonathan Hui | Medium
反向强化学习 | Way To Machine Learning
(3 条消息) 目前最好用的大规模强化学习算法训练库是什么? - 知乎
test
[D] Reinforcement Learning with multiple simultaneous actions? : MachineLearning
[D] Reinforcement learning with combined continuous and discrete action space? : MachineLearning
[D] Reinforcement learning with combined continuous and discrete action space? : MachineLearning
如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(已完成) - 知乎
跨年推荐书:Feedback Systems and Reinforcement Learning - 知乎
谁说RL智能体只能在线训练?谷歌发布离线强化学习新范式,训练集相当于200多个ImageNet - 知乎
真离线强化 An Optimistic Perspective on Offline RL - 知乎
Bayesian Reinforcement Learning
强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 - 知乎
Rainbow:整合DQN六种改进的深度强化学习方法! - 简书
[阅读笔记]Background and Decision-time Planning - 知乎
【强化学习 141】Off-Policy Evaluation - 知乎
如何评价DeepMind新提出的MuZero算法? - 知乎
(1 条消息) 有人总结下reinforcement learning里面planning和learning两部分嘛? - 知乎
强化学习论文笔记1——Reward Shaping重要理论基础 - 知乎
【论文笔记 5】Conservative Q-Learning - 知乎
Reinforcement Learning in Recommender Systems: Some Challenges
Model-Based RL Ⅰ: Dyna, MVE & STEVE - 知乎
【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法_shura的技术空间-CSDN博客_强化学习ppo
Proximal Policy Optimization(PPO)算法原理及实现! - 简书
(4 封私信) 在强化学习中,为什么TRPO和PPO算法属于On-Policy的算法? - 知乎
(5 封私信 / 7 条消息) 强化学习领域目前遇到的瓶颈是什么? - 知乎
(5 封私信 / 2 条消息) Williams的REINFORCE算法和一般的policy gradient算法有什么区别吗? - 知乎
什么是 Deep Deterministic Policy Gradient (DDPG) - 强化学习 Reinforcement Learning | 莫烦Python