不同gym游戏 reward的设置探究

bijingrui

已于 2022-03-24 15:17:28 修改

阅读量1.7k

点赞数 1

分类专栏： # 强化学习文章标签：强化学习

于 2021-08-04 22:52:59 首次发布

本文链接：https://blog.csdn.net/bijingrui/article/details/119363737

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

延迟奖励(安全走一步r=0，进终点 r=1)：FrozenLake

游戏详情
普通步骤：reward = 0

episode结束：
  如果进入黑洞，done = True， reward = 0 不能移动 需要自己reset
  如果进入终点，done = True， reward = 1 不能移动 需要自己reset

无论是走到终点win，然后done = true ，还是掉进黑洞  done = true，都要reset()
典型的一条exp经验：

s = 15 a = '→' r = 1 s' = 16

q(15,→) = 1 收敛于此，因为done了，没有以后了。

说明15是一个好状态：他上下左右4个action里面有一个action→可以走的比较好

s = 11 a='↓' r = 0 s' = 15

target_q 代表我认为q(s,a)应该有的value，q(s,a)也代表了动作的价值未来差不多能拿到多少reward：future discounted return的期望。虽然r= 0，但是我认为此时动作的价值是： 0 + max q(s',a) 因此这个动作也有了价值，价值虽然不是立即获得的r，而是s下做了这个a，进入到了一个更好地状态S’。

s = 5 a= '↓' r = 0 s'= 9

虽然r = 0 ，没什么奖励，但是在s下做了a 进入到了S’ = 9 这个状态里面四个action还是有价值的。

想想这个收敛的表格，是什么样的

晕染

衡量一个state的价值好不好就看这一行每个q(s,a)高不高，代表有方法进入更好地state 拿到更好地 E（discounted return）或者直接win，拿到高reward， done。

临近win(done = true,reward = 高) 附近的state价值高，因为他们有方法（action）可以win，拿到高reward。state价值高就是说明当前state下，有action 他未来的discounted return 很高。

临近这样高价值的state的 state 如果有action进入这样的state，除非reward 负很大，平衡了未来收益和现有收益，那都是高价值的，因为他们有action可以进入高价值的state。

带滑梯的到终点（CliffWalking，每走一步r=-1）

游戏详情

进入黑色滑梯，reward = -100，人物回到原点，done = False。

走一步，安全情况下，reward = -1

走到终点，reward = -1，done = True

想想这个table里面数值是什么样的

临近done 的state q(s,'↓') = -1,

那么临近的临近 q(s,'a') = -1 + 0.6 * q(s',a) = -1 + 0.6*-1 = -1.6

起点的话，往右走 q(0,'→') = -100，往上走至少分数高点，比如 - 10，-20这样的，具体看自己设置的-1 + gama * q(s',a)

cartpole （坚持1s给1分）（FlappyBird）

游戏规则

想法

如果 state100 = [x1 x2 x3 x4] 在一个很危险的state，做任何action都是死亡 done = True。

如果在state99，左走能进入state 100（危险），右走进入state 98 （有很大生机）

那么虽然两个action 都能坚持当前的1s 给1分，但是往后的discounted return 就不一样了。