
深度强化学习
无知书童
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
10 A3C
平行宇宙,三个你同时在做运动,且能够互相通信,系统能够同时学习三个案例。原视频:https://www.bilibili.com/video/av16921335?p=29原创 2019-11-17 20:37:34 · 142 阅读 · 0 评论 -
9 DDPG
原视频:https://www.bilibili.com/video/av16921335?p=27原创 2019-11-17 20:32:37 · 263 阅读 · 0 评论 -
8 Actor Critic
Policy Gradient 能够让算法在连续的空间中选择动作。Value-Based 方法能够实现单步更新,而Policy Gradient是回合更新。Critic 部分学习出系统的奖惩值,由学习到的奖惩值指导Actor的动作。每次参数更新都存在相关性,导致神经网络只能片面的看待问题。为解决在连续动作上预测学不到东西的问题https://www.bilibili.com/...原创 2019-11-17 20:27:18 · 189 阅读 · 0 评论 -
7 Policy Gradient
Policy Gradients 相比于 Q-learning 的好处是,它可以在一个连续的空间内选择动作。神经网络选择操作的行为,根据反馈如果是正向的则加大下一次被选中的几率,如果是反向的则减少下一次被选中的几率。原视频:https://www.bilibili.com/video/av16921335?p=22...原创 2019-11-17 20:12:46 · 192 阅读 · 0 评论 -
6 DQN
DQN 采用的是 神经网络 + Q-learning 的方法有些情况,状态比较多,采用表格的方式不大现实,所以采用神经网络的方式原视频:https://www.bilibili.com/video/av16921335?p=14...原创 2019-11-17 19:54:42 · 161 阅读 · 0 评论 -
5. Sarsa(lambda)
Sarsa lambdaλ\lambdaλ 指的是选择更新的步数。单步更新,只更新了获得宝藏的那一步的参数。回合更新,更新了从出发到获得宝藏的所有步数的参数。多了一个奖励衰减值,离宝藏越远衰减越多。原视频:https://www.bilibili.com/video/av16921335?p=12...原创 2019-11-16 21:09:46 · 235 阅读 · 0 评论 -
4. Sarsa
SarsaSarsa与Q-Learning的区别在Q-Learning算法当中未来的Q(s′,a′)Q(s',a')Q(s′,a′) 是估计出来的,而Sarsa的Q(S2,a2)Q(S2,a2)Q(S2,a2)是计算出来的。Q-Learning算法永远在寻找离目标最近的一条道路,而Sarsa算法寻找的是一条比较安全的道路。原视频:https://www.bilibili....原创 2019-11-16 20:56:41 · 217 阅读 · 0 评论 -
3. Q Learing
Q Learing举例:不写完作业就不能看电视原视频:https://www.bilibili.com/video/av16921335?p=5原创 2019-11-16 16:55:39 · 196 阅读 · 0 评论 -
2. 强化学习方法汇总
强化学习方法汇总通过理解环境分类通过基于概率和价值分类根据更新回合分类根据在线和离线分类通过理解环境分类Model-Based 方法,机器人通过过往的经验,理解真实世界的情况并建立一个模型来模拟现实世界。Model-based 的方法具有想象力,可以通过想象来预判下一步的情况,根据想象中的情况选择最好的一种,根据这种情况来做下一步的策略。通过基于概率和价值分类基于价值的选择策略更加...原创 2019-11-16 16:42:22 · 507 阅读 · 0 评论 -
1. 强化学习介绍
强化学习介绍强化学习是一种算法,让机器从什么都不懂,从错误中学习找到规律,学习到达到目标的方法。训练过程当中需要一个好老师,但这个老师不会告诉你如何行动,只有给你的行为打分。计算机需要记住得到高分的行为,下一次做同样的行为以获取高分。常用方法原视频:https://www.bilibili.com/video/av16921335?p=1...原创 2019-11-16 16:25:53 · 222 阅读 · 0 评论