强化学习
hinanmu
这个作者很懒,什么都没留下…
展开
-
李宏毅深度强化学习笔记(一)Policy Gradient
李宏毅深度强化学习笔记(一)参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87905272李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071Policy Gradient术语和基本思想基本组成:actor (即policy gradie...转载 2019-07-13 11:06:32 · 1082 阅读 · 0 评论 -
李宏毅深度强化学习笔记(二)Proximal Policy Optimization
李宏毅深度强化学习笔记(二)Proximal Policy Optimization参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87905272李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071Proximal Policy Optimiza...转载 2019-07-13 17:11:09 · 448 阅读 · 0 评论 -
李宏毅深度强化学习笔记(三)Q-learning(basic idea)
李宏毅深度强化学习笔记(三)Q-learning(basic idea)参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87905272李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071Q-Learning介绍基本思想Q-learning – v...转载 2019-07-15 14:57:28 · 323 阅读 · 0 评论 -
李宏毅深度强化学习笔记(四)Q-learning(Advanced Tips)
参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87907470李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记(四)Q-learning(Advanced Tips)Double DQN由于Q值总是基于使得Q最大的acti...转载 2019-07-15 19:06:06 · 878 阅读 · 2 评论 -
李宏毅深度强化学习笔记(五)Q-learning(Continuous Action)
参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87907470李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记(五)Q-learning(Continuous Action)连续行动下的 Q-Learning连续行动:...转载 2019-07-15 19:10:01 · 661 阅读 · 0 评论 -
李宏毅深度强化学习笔记(七)Sparse Reward
参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87990012李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记(七)Sparse RewardReward Shaping当reward的分布非常分散时,对于机器而言学习...转载 2019-07-23 16:00:59 · 561 阅读 · 0 评论 -
李宏毅深度强化学习笔记(八)Imitation Learning
参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/88051963李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071李宏毅深度强化学习笔记(八)Imitation Learning为什么要模仿学习 Imitation Learning(也称为 l...转载 2019-07-23 16:47:35 · 961 阅读 · 0 评论 -
李宏毅深度强化学习笔记(六)Actor-Critic
参考jessie_weiqing博客:https://blog.csdn.net/cindy_1102/article/details/87988606李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071Asynchronous Advantage Actor-Critic (A3C)回顾 – Policy Gradient先对po...转载 2019-07-16 17:24:22 · 1105 阅读 · 0 评论