2020年08月_晴晴_Amanda

10月 09月 08月 07月 06月 05月 04月 03月 02月

原创晴晴晴讲 DQN 的发展史【入门级】

文章目录Q-learningSarsaSarsa(λ)Deep Q NetworkDouble DQNPrioritized Experience Replay (DQN)Dueling DQNQ-learningSarsaSarsa(λ)Deep Q Network当状态空间比较小的情况下用 q learning 还是可以的，但是在复杂的情况下，例如一个视频游戏，它的状态空间非常大，如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。这个时候我们就想不是直接的用迭代的方式去计

2020-08-29 23:12:02 961

原创强化学习汇总 - Mofan教程

文章目录1. 什么是强化学习RL算法2. 强化学习方法汇总model-free 和 model-based基于概率和基于价值回合更新和单步更新在线学习和离线学习3. Q-learningQLearning 决策QLearning 更新Q Learning 整体算法Q Learning 中的 Gamma小例子Q-learning 算法更新与 Q-learning 思维决策代码部分4. Sarsa [state-action-reward-state-action]Sarsa 更新行为准则

2020-08-28 20:35:00 1568

原创第三篇直接策略搜索——基于确定性策略搜索的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于确定性策略搜索的强化学习方法一、基于确定性策略搜索的强化学习方法一、...

2020-08-25 23:13:41 342

原创第三篇直接策略搜索——基于置信域策略优化的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接：链接：https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码：opjy文章目录基于置信域策略优化的强化学习方法一、基于置信域策略优化的强化学习方法一、...

2020-08-25 23:08:49 839

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 晴晴晴 讲 DQN 的发展史【入门级】

原创 强化学习汇总 - Mofan教程

原创 第三篇 直接策略搜索——基于确定性策略搜索的强化学习方法

原创 第三篇 直接策略搜索——基于置信域策略优化的强化学习方法

空空如也

空空如也

原创晴晴晴讲 DQN 的发展史【入门级】

原创强化学习汇总 - Mofan教程

原创第三篇直接策略搜索——基于确定性策略搜索的强化学习方法

原创第三篇直接策略搜索——基于置信域策略优化的强化学习方法