【学习笔记】强化学习 Chapter 3 Finite Markov Decision Processes

本文详细解答了《强化学习》第二版Chapter 3中的多个练习题,涉及连续任务与回合制任务的区别,奖励序列的计算,贝尔曼方程的应用,最优策略的确定等核心概念。
摘要由CSDN通过智能技术生成

Reference:

Reinforcement Learning: An Introduction 2nd Edition

Exercise 3.5

\sum_{s' \in \mathcal{S}} \sum_{r \in \mathcal{R}} p(s', r| s, a) = 1,\text{for all } s \in \mathcal{S}, a \in \mathcal{A}(s)             (3.3)

公式(3.3)适用于连续任务(continuous task),请对其进行修改使它适用于回合制任务(episodic task)。

解:

\sum_{s' \in \mathcal{S^+}} \sum_{r \in \mathcal{R}} p(s', r| s, a) = 1,\text{for all } s \in \mathcal{S}, a \in \mathcal{A}(s)

这里\mathcal{S}表示所有的非终止状态(nonterminal state),\mathcal{S}^+表示所有的状态(terminal states and nonterminal states)

Exercise 3.6

假设将平衡杆问题视为episodeic task,并且使用discounting。除了失败时的reward是-1,其余时间reward均为0。那么每次的reward应是多少?它与将其视为continuous task有什么区别?

解:

每一回合的reward是-\gamma^{T-1}T是该回合失败的时间点。

它与continuous task不同的是,在continuous task中每次失败后时间t不会归零,而在episodic task中失败后时间会归零并开启新的回合。

Exercise 3.7

假设我们需要设计一个走迷宫的机器人,并决定在它逃出迷宫的时候给它一个+1的reward,其他时刻reward均为0。我们将其视为episodic task:每成功逃出一次算作一个episode。我们的目标是最大化总reward的期望:即G_t = R_{t+1} + R_{t+2} + \dots R_T。将机器人运行一段时间后我们发现,它在逃出迷宫这项任务上没有任何长进,问题出在了哪里?我们应如何有效地告诉机器人我们想让它完成的任务?

解:

如果仅仅在逃出迷宫的时候给予一个+1的reward且不使用discounting,那么每个episode最终的总reward均为+1,即无论机器人做什么选择最终都能且仅能得到+1的reward。

一个有效的方法是:机器人在迷宫中每走一步,都给予它一个-1的reward,在它逃出迷宫时给予它一个0的reward。这样做即让机器人尽量花少的时间走出迷宫。迫使它学会如何靠近出口。

Exercise 3.8

假设\gamma = 0.5并且接收到了如下的reward序列:R_1 = -1, R_2 = 2, R_3 = 6, R_4 = 3, R_5 = 2T=5。那么G_0, G_1, ..., G_5的值是多少?提示:从后向前计算。

解:

由于T=5,那么我们有G_5 = 0

G_4= R_5 + \gamma G_5 = 2 +0 = 2

G_3 = R_4 + \gamma G_4 = 3 + 1 = 4

G_2 = R_3 + \gamma G_3 = 6 + 2 = 8

G_1 = R_2 + \gamma G_2 = 2 + 4 = 6

G_0 = R_1 + \gamma G_1 = -1 + 3 = 2

Exercise 3.9

如果\gamma = 0.9R_1 = 2并且后续所有reward均为7。那么G_0G_1的值是多少?

解:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值