笔记
cencen_binbin
这个作者很懒,什么都没留下…
展开
-
强化学习笔记6
DDPG算法基本概念:离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中,游戏有 6 个按键的动作可以输出。但在实际情况中,经常会遇到连续动作空间的情况,也就是输出的动作是不可数的。比如说推小车力的大小、 选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续的动作控制空间,Q-lear原创 2020-11-08 19:23:14 · 178 阅读 · 0 评论 -
强化学习笔记5
一、稀疏奖励基本概念:实际上用 reinforcement learning learn agent 的时候,多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下,训练 agent 是非常困难的。如果环境中的 reward 非常 sparse,reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习。reward shaping: 在我们的agent与environment进原创 2020-11-05 23:40:14 · 132 阅读 · 0 评论