[转载]李宏毅RL网课笔记

Love_marginal

于 2020-06-29 20:56:52 发布

阅读量500

点赞数

分类专栏：强化学习

原文链接：https://blog.csdn.net/cindy_1102/article/details/87904928

版权

强化学习专栏收录该内容

20 篇文章 20 订阅

订阅专栏

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记（一）Outline
概述强化学习，及policy-based、value-based的方法

李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
episide、trajectory等术语，policy gradient的原理，on-policy和off-policy
important sampling，PPO算法

李宏毅深度强化学习笔记（三）Q-Learning
引入状态价值函数和动作价值函数，提到了估计状态价值函数的两种方法：基于蒙特克罗的方法（MC）和时序差分方法（TD）。
Q-learning的算法流程，Target network和replay Buffer的方法
Double DQN、Dueling DQN、Prioritized Experience Replay、Multi-step:Combination of MC and TD
Distributional Q-function、Rainbow
连续行动下的QL

李宏毅深度强化学习笔记（四）Actor-Critic
结合Policy gradient和Q-learning，用QL的V函数和Q函数来替换policy gradient公式里面的累积reward和baseline
Advantage Actor-Critic、Asynchronous Advantage Actor-Critic (A3C)
Pathwise Derivative Policy Gradient

李宏毅深度强化学习笔记（五）Sparse Reward
处理动作空间太大，大部分动作的reward均为0的情况。
好奇法、ICM函数、课程式学习、级联强化学习

李宏毅深度强化学习笔记（六）Imitation Learning
模仿学习 Imitation Learning、Inverse Reinforcement Learning (IRL)

李宏毅深度强化学习课件

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
[转载]李宏毅RL网课笔记

李宏毅深度强化学习课程https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记（一）Outline概述强化学习，及policy-based、value-based的方法李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)episide、trajectory等术语，policy gradient的原理，on-policy和off-policyimportant sampling，PPO算法李宏毅深度.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。