- 博客(4)
- 收藏
- 关注
原创 晴晴晴 讲 DQN 的发展史【入门级】
文章目录Q-learningSarsaSarsa(λ)Deep Q NetworkDouble DQNPrioritized Experience Replay (DQN)Dueling DQNQ-learningSarsaSarsa(λ)Deep Q Network当状态空间比较小的情况下用 q learning 还是可以的,但是在复杂的情况下,例如一个视频游戏,它的状态空间非常大,如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。这个时候我们就想不是直接的用迭代的方式去计
2020-08-29 23:12:02 961
原创 强化学习汇总 - Mofan教程
文章目录1. 什么是强化学习RL算法2. 强化学习方法汇总model-free 和 model-based基于概率 和 基于价值回合更新 和 单步更新在线学习 和 离线学习3. Q-learningQLearning 决策QLearning 更新Q Learning 整体算法Q Learning 中的 Gamma小例子Q-learning 算法更新 与 Q-learning 思维决策 代码部分4. Sarsa [state-action-reward-state-action]Sarsa 更新行为准则
2020-08-28 20:35:00 1568
原创 第三篇 直接策略搜索——基于确定性策略搜索的强化学习方法
本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接:链接:https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码:opjy文章目录基于确定性策略搜索的强化学习方法一、基于确定性策略搜索的强化学习方法一、...
2020-08-25 23:13:41 342
原创 第三篇 直接策略搜索——基于置信域策略优化的强化学习方法
本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接:链接:https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码:opjy文章目录基于置信域策略优化的强化学习方法一、基于置信域策略优化的强化学习方法一、...
2020-08-25 23:08:49 839
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人