强化学习用于推荐系统相关资料

strawberry47

已于 2022-03-29 16:40:42 修改

阅读量695

点赞数 2

分类专栏：强化学习学习笔记文章标签：强化学习人工智能机器学习算法 python

于 2021-05-11 08:49:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/strawberry47/article/details/116638744

版权

学习笔记同时被 2 个专栏收录

45 篇文章

订阅专栏

20 篇文章

订阅专栏

Richaed S.Sutton撰写的一本厚厚的书：《强化学习》我整理的笔记
如何处理大规模离散动作空间
增强学习在推荐系统有什么最新进展？
RL在推荐中的综述，用很短的篇幅把强化学习在推荐系统中的工作、问题全理顺了。Reinforcement Learning based Recommender Systems: A Survey
一个tutorial对理解RL在推荐中的off-policy evaluation非常有帮助，前半小时是精髓。 A Gentle Introduction to Recommendation as Counterfactual Policy Learning youtube链接对应的slide pdf
离线强化学习。这是Sergey Levine（伯克利大学的强化学习巨佬）亲自一作写的综述和tutorial，2020年新出的，也是目前强化学习的一个重点研究方向。tutorial首页综述：Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems；综述链接
强化学习算法实现的库，清华本科生写的一个代码量很短的库，对比目前主流的库，效果和效率都好得多，非常强
强化学习在推荐中的交互环境：RecoGym 2018, PyRecGym 2019年，Recsim 2019年，Virtual-Taobao 2019年
如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（已完成）
深度强化学习调参技巧：以D3QN、TD3、PPO、SAC算法为例

2021.11.10更新

强化学习：兵分三路，挺进产业

前沿强化学习问题

(2 条消息) 强化学习的训练只用历史数据可行么？ - 知乎

Offline RL 教程 - 知乎

真离线强化 An Optimistic Perspective on Offline RL - 知乎

(2 条消息) 强化学习中A3C/DDPG/DPPO哪个效果更好？ - 知乎

离线强化学习综述 - 知乎

Top-K Off-Policy Correction for a REINFORCE Recommender System on Youtube | 王鸣辉的博客

(2 条消息) 增强学习在推荐系统有什么最新进展？ - 知乎

CS 285: Lecture 12, Part 1

RL — Model-based Reinforcement Learning | by Jonathan Hui | Medium

反向强化学习 | Way To Machine Learning

(3 条消息) 目前最好用的大规模强化学习算法训练库是什么？ - 知乎

test

[D] Reinforcement Learning with multiple simultaneous actions? : MachineLearning

[D] Reinforcement learning with combined continuous and discrete action space? : MachineLearning

[D] Reinforcement learning with combined continuous and discrete action space? : MachineLearning

如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（已完成） - 知乎

(3 条消息) 施靖 - 知乎

跨年推荐书：Feedback Systems and Reinforcement Learning - 知乎

谁说RL智能体只能在线训练？谷歌发布离线强化学习新范式，训练集相当于200多个ImageNet - 知乎

真离线强化 An Optimistic Perspective on Offline RL - 知乎

Bayesian Reinforcement Learning

强化学习基础 Ⅳ: State-of-the-art 强化学习经典算法汇总 - 知乎

Rainbow:整合DQN六种改进的深度强化学习方法！ - 简书

[阅读笔记]Background and Decision-time Planning - 知乎

(6 条消息) 张楚珩 - 知乎

【强化学习 141】Off-Policy Evaluation - 知乎

如何评价DeepMind新提出的MuZero算法？ - 知乎

(1 条消息) 有人总结下reinforcement learning里面planning和learning两部分嘛？ - 知乎

强化学习论文笔记1——Reward Shaping重要理论基础 - 知乎

推特爆款：谷歌大脑工程师的深度强化学习劝退文-虎嗅网

【论文笔记 5】Conservative Q-Learning - 知乎

Reinforcement Learning in Recommender Systems: Some Challenges

Model-Based RL Ⅰ: Dyna, MVE & STEVE - 知乎

Decisions from Data: How Offline Reinforcement Learning Will Change How We Use Machine Learning | by Sergey Levine | Medium

【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法_shura的技术空间-CSDN博客_强化学习ppo

一文带你理清DDPG算法（附代码及代码解释） - 知乎

Proximal Policy Optimization(PPO)算法原理及实现！ - 简书

强化学习进阶第七讲 TRPO - 知乎

(4 封私信) 在强化学习中，为什么TRPO和PPO算法属于On-Policy的算法？ - 知乎

machine learning - What is the difference between value iteration and policy iteration? - Stack Overflow

(5 封私信 / 7 条消息) 强化学习领域目前遇到的瓶颈是什么? - 知乎

(5 封私信 / 2 条消息) Williams的REINFORCE算法和一般的policy gradient算法有什么区别吗？ - 知乎

Actor-Critic算法小结 - 知乎

什么是 Deep Deterministic Policy Gradient (DDPG) - 强化学习 Reinforcement Learning | 莫烦Python

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。