Reference:
Reinforcement Learning: An Introduction 2nd Edition
Exercise 3.5
(3.3)
公式(3.3)适用于连续任务(continuous task),请对其进行修改使它适用于回合制任务(episodic task)。
解:
这里表示所有的非终止状态(nonterminal state),表示所有的状态(terminal states and nonterminal states)
Exercise 3.6
假设将平衡杆问题视为episodeic task,并且使用discounting。除了失败时的reward是-1,其余时间reward均为0。那么每次的reward应是多少?它与将其视为continuous task有什么区别?
解:
每一回合的reward是,是该回合失败的时间点。
它与continuous task不同的是,在continuous task中每次失败后时间t不会归零,而在episodic task中失败后时间会归零并开启新的回合。
Exercise 3.7
假设我们需要设计一个走迷宫的机器人,并决定在它逃出迷宫的时候给它一个+1的reward,其他时刻reward均为0。我们将其视为episodic task:每成功逃出一次算作一个episode。我们的目标是最大化总reward的期望:即。将机器人运行一段时间后我们发现,它在逃出迷宫这项任务上没有任何长进,问题出在了哪里?我们应如何有效地告诉机器人我们想让它完成的任务?
解:
如果仅仅在逃出迷宫的时候给予一个+1的reward且不使用discounting,那么每个episode最终的总reward均为+1,即无论机器人做什么选择最终都能且仅能得到+1的reward。
一个有效的方法是:机器人在迷宫中每走一步,都给予它一个-1的reward,在它逃出迷宫时给予它一个0的reward。这样做即让机器人尽量花少的时间走出迷宫。迫使它学会如何靠近出口。
Exercise 3.8
假设并且接收到了如下的reward序列:且。那么的值是多少?提示:从后向前计算。
解:
由于,那么我们有。
Exercise 3.9
如果,并且后续所有reward均为7。那么和的值是多少?
解: