自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 晴晴晴 讲 DQN 的发展史【入门级】

文章目录Q-learningSarsaSarsa(λ)Deep Q NetworkDouble DQNPrioritized Experience Replay (DQN)Dueling DQNQ-learningSarsaSarsa(λ)Deep Q Network当状态空间比较小的情况下用 q learning 还是可以的,但是在复杂的情况下,例如一个视频游戏,它的状态空间非常大,如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。这个时候我们就想不是直接的用迭代的方式去计

2020-08-29 23:12:02 961

原创 强化学习汇总 - Mofan教程

文章目录1. 什么是强化学习RL算法2. 强化学习方法汇总model-free 和 model-based基于概率 和 基于价值回合更新 和 单步更新在线学习 和 离线学习3. Q-learningQLearning 决策QLearning 更新Q Learning 整体算法Q Learning 中的 Gamma小例子Q-learning 算法更新 与 Q-learning 思维决策 代码部分4. Sarsa [state-action-reward-state-action]Sarsa 更新行为准则

2020-08-28 20:35:00 1568

原创 第三篇 直接策略搜索——基于确定性策略搜索的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接:链接:https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码:opjy文章目录基于确定性策略搜索的强化学习方法一、基于确定性策略搜索的强化学习方法一、...

2020-08-25 23:13:41 342

原创 第三篇 直接策略搜索——基于置信域策略优化的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接:链接:https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw 提取码:opjy文章目录基于置信域策略优化的强化学习方法一、基于置信域策略优化的强化学习方法一、...

2020-08-25 23:08:49 839

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除