【强化学习】动态规划算法实践

【强化学习】动态规划算法实践

阅读本文的前置条件:

前置知识概念:状态价值函数 v v v、动作价值函数 p p p
前置方法概念:

  1. 策略迭代Policy Iteration(内含策略评估Policy Evaluation + 策略优化Policy Improvement)
  2. 价值迭代Value Iteration

实验环境如下:16个格子,走到左上或者右下角即为结束。否则持续行走,每走一步奖励-1。
在这里插入图片描述

给定初始随机策略和状态价值函数 v 0 v_0 v0

在这里插入图片描述

针对上述Gridworld问题编码实现:

  • 使用 Policy Evaluation的方法计算 v π v_\pi vπ
  • 用Policy Iteration方法搜索最优 v ∗ v_* v p ∗ p_* p
  • 用Value Iteration方法搜索最优 v ∗ v_* v p ∗ p_* p

一. 实验过程

本节实验过程将分为环境准备策略迭代策略评估策略提升价值迭代五个部分。

1.1 Environment

由PPT中的Gridworld问题:

  • 4*4的网格,左上和右下角为目标点。
  • 每次移动reward = -1,到达目标点无需移动。
    • 如果移动越界,则位置不变。

我们定义如下Gridworld类表示网格世界。

class GridWorld:
    """ 网格世界,坐标系原点(0,0) 
    """

    def __init__(self, ncol=4, nrow=4):
        self.ncol = ncol  # 定义网格世界的列
        self.nrow = nrow  # 定义网格世界的行
        self.target_grids = [(0, 0), (ncol-1, nrow-1)]  # 存储目标区域
        # 状态数量
        self.state_nums = ncol * nrow
        # 4种动作, actions[0]:上,actions[1]:下, actions[2]:左, actions[3]:右。
        self.actions = [[0, -1], [0, 1], [-1, 0], [1, 0]]
        # 状态转移概率矩阵P[state][action] = [(p, next_state, reward, done)]包含下一个状态和奖励
        # state 是一维表示的
        self.P = self.init_P()

其中,除了基本的行和列之外,我们定义上下左右的四个动作,以及状态转移概率矩阵P。P矩阵表示在状态state中采取动作action后,多大的概率获得多少奖励以及进入下一个状态,是否结束。

由于本次实验环境中一种行动对应的下一个状态只有一种,且定义了除目标点之外的移动均会获得-1的奖励。故此处的p固定为1,对应下节Bellman方程中的 p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a)

为便于计算,我们将二维的4*4网格状态通过一维的线性表示。如 s t a t e = ( x , y ) state = (x,y) state=(xy)可以表示为 s t a t e = x ∗ n c o l + y state = x * ncol + y state=xncol+y

状态转移概率矩阵初始化如下:

    def init_P(self):
        # 初始化
        P = [[[] for j in range(4)] for i in range(self.state_nums)]
        for i in range(self.nrow):
            for j in range(self.ncol):
                # 遍历四个方向
                for a in range(4):
                    # 采取行动后进入的状态s'、奖励r都是固定的概率1
                    psa = 1
                    # 位置在目标状态,因为不需要继续交互,任何动作奖励都为0
                    if (i, j) in self.target_grids:
                        P[i * self.ncol +
                            j][a] = [(psa, i * self.ncol + j, 0, True)]
                        continue
                    # 其他位置(边界越界后依旧保持不动)
                    next_x = min(self.ncol - 1, max(0, j + self.actions[a][0]))
                    next_y = min(self.nrow - 1, max(0, i + self.actions[a][1]))
                    next_state = next_y * self.ncol + next_x
                    reward = -1
                    done = False
                    # 如果下一个位置在目标状态,Done
                    if (next_x, next_y) in self.target_grids:
                        done = True
                    P[i * self.ncol + j][a] = [(psa, next_state, reward, done)]
        return P

1.2 Policy Iteration

b) 用Policy Iteration方法搜索最优 v ∗ 、  p ∗ v_*、\ p_* v p

策略迭代算法的过程如下:对当前的策略进行策略评估,得到其状态价值函数,然后根据该状态价值函数进行策略提升以得到一个更好的新策略,接着继续评估新策略、提升策略……直至最后收敛到最优策略

我们判定,若迭代过程中,旧策略等于新策略,则视为收敛,并且此时的策略即是 p ∗ p* p

同理当 v k + 1 v_{k+1} vk+1 v k v_k vk相同(相差小于阈值θ)时,它就是贝尔曼最优方程的不动点,对应最优状态价值函数 v ∗ v* v

P o l i c y I t e r a t i o n Policy Iteration PolicyIteration过程如下:

在这里插入图片描述

P o l i c y I t e r a t i o n Policy Iteration PolicyIteration 框架代码如下:

    def policy_iteration(self):  # 策略迭代
        # V及pi的初始化已完成(具体赋值见1.3)
        while 1:
            self.policy_evaluation()
            old_pi = copy.deepcopy(self.pi)  # 将列表进行深拷贝,方便接下来进行比较
            new_pi = self.policy_improvement()
            if old_pi == new_pi:
                break

其中1.3节将具体说明policy_evaluation、1.4节将具体说明policy_improvment。

1.3 Policy Evaluation

a) 用本PPT讲的 Policy Evaluation的方法计算 v π v_\pi vπ

对于状态价值函数的Bellman方程如下:
v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] v_\pi(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')] vπ(s)=aπ(as)s,rp(s,rs,a)[r+γvπ(s)]
由此可知我们后续实现自举方式时所用到的状态价值函数递推式:
v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] v_{k+1}(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')] vk+1(s)=aπ(as)s,rp(s,rs,a)[r+γvk(s)]

为此,我们实现的基本步骤如下:

  1. 初始化值函数

    对于所有的初始状态s,我们只需要设置其状态价值v为0即可。

  2. 迭代更新状态价值函数

    对于每一个状态s,我们使用贝尔曼方程计算新的值函数new_v。

  3. 检查收敛

    检查状态价值函数的更新是否收敛于我们定义的阈值θ,若收敛则停止迭代。最新的new_v即为所求。

由上述递推式可知,我们需要预先知道并且定义好如下变量:

  • A:表示动作空间。a表示特定的动作。在本次实验中动作空间定义如下:
    a c t i o n s = [ [ 0 , − 1 ] , [ 0 , 1 ] , [ − 1 , 0 ] , [ 1 , 0 ] ] actions = [[0, -1], [0, 1], [-1, 0], [1, 0]] actions=[[0,1],[0,1],[1,0],[1,0]]
    分别表示上下左右四个方向的行动。

  • π ( a ∣ s ) \pi(a|s) π(as):策略在状态s下采取行动a的概率。我们定义在初始策略中,每一个状态下等概率随机采取行动,即:
    π = [ [ 0.25 , 0.25 , 0.25 , 0.25 ] ∗ s t a t e   n u m s ] \pi = [[0.25, 0.25, 0.25, 0.25] * state\ nums] π=[[0.25,0.25,0.25,0.25]state nums]

  • P ( s ′ , r ∣ s , a ) P(s',r|s,a) P(s,rs,a):策略在状态s下采取行动a后进入状态s’以及获得奖励r的概率。由于本次实验环境较为简单,采取行动后进入的状态s’只有一种,且采取行动a获取的奖励r也是固定为-1(除了目标点之外),故可直接视为1。

  • γ \gamma γ:未来的折扣因子。在当前实验中,我们设置为1。

  • v k ( s ) v_k(s) vk(s):s状态下的价值函数。在初始化后,我们定义每个状态初始都是价值为0。
    v = [ 0 ] ∗ s t a t e   n u m s v = [0] * state\ nums v=[0]state nums

  • θ:收敛阈值。用于判定状态价值函数是否收敛。我们设置为0.001。

至此,我们可以构建Policy Evaluation方法来计算 v π v_\pi vπ,代码如下:

    def policy_evaluation(self):  # 策略评估
        state_nums = self.env.state_nums
        while 1:
            max_diff = 0
            new_v = [0] * state_nums # 初始化值函数
            for s in range(state_nums):
                qsa_list = [] # 状态s下的所有Q(s,a)价值
                # 尝试这个状态的所有动作
                for a in range(4):
                    qsa = 0
                    for res in self.env.P[s][a]:
                        p, next_state, r, done = res
                        # 应用贝尔曼方程的右侧部分
                        qsa += p * (r + self.gamma * self.v[next_state])
                    qsa_list.append(self.pi[s][a] * qsa)
                # 最后累加即得到v_{k+1}
                new_v[s] = sum(qsa_list)
                max_diff = max(max_diff, abs(new_v[s] - self.v[s]))
            self.v = new_v  # 自举
            if max_diff < self.theta:
                break  # 满足收敛条件,退出评估迭代

为了验证正确性,我们在每次自举之后输出状态价值函数,输出结果(部分)如下:

在这里插入图片描述

我们取第二次输出的(0,1)位置上的-1.750 进行验证:
− 1.750 = [ 0.25 ∗ ( − 1 + 1 ∗ ( − 1 ) ) ] + [ 0.25 ∗ ( − 1 + 1 ∗ ( − 1 ) ) ] + [ 0.25 ∗ ( − 1 + 1 ∗ ( − 1 ) ) ] + [ 0.25 ∗ ( − 1 + 1 ∗ ( 0 ) ) ] \\ -1.750 = [0.25*(-1 + 1*(-1))] + [0.25*(-1 + 1*(-1))]+ \\ [0.25*(-1 + 1*(-1))] + [0.25*(-1 + 1*(0))] 1.750=[0.25(1+1(1))]+[0.25(1+1(1))]+[0.25(1+1(1))]+[0.25(1+1(0))]
符合贝尔曼递推式。

1.4 Policy Improvement

策略提升的基本步骤为:

  1. 初始化新策略

    • 对每个状态s,初始化一个新的动作a。
  2. 对每个状态进行策略改进

    • 对每个状态 s
      • 对所有可能的动作 a
        • 计算选择动作 a 后的价值 Q(s*,*a)
  3. 选择最优动作

    • 对于每个状态s ,选择使得 Q(s,a) 最大的动作 a 。
  4. 更新策略

    • 使用新的动作作为当前策略,得到改进后的策略。

      (由于可能存在多个相同价值的动作,所以我们将相同数量的最大动作价值转为概率,赋值给新的策略pi。

    # 策略提升
    def policy_improvement(self):
        state_nums = self.env.state_nums
        for s in range(state_nums):
            qsa_list = []
            for a in range(4):
                qsa = 0
                for res in self.env.P[s][a]:
                    p, next_state, r, done = res
                    qsa += p * (r + self.gamma * self.v[next_state])
                qsa_list.append(qsa)
            maxq = max(qsa_list)
            cntq = qsa_list.count(maxq)  # 计算有几个动作得到了最大的Q值
            # 让这些动作均分概率
            self.pi[s] = [1 / cntq if q == maxq else 0 for q in qsa_list]
            print(f"state: {s}  pi: {self.pi[s]}")
        print("策略提升完成")
        return self.pi

我们打印当前策略在每个状态下的价值以及智能体可采取的动作。

参考《动手学强化学习》输出示例,我们使用一个箭头序列来表示可能采取的行动。o表示不采取行动。例如:

  • ^v<>:表示等概率采取上下左右。
  • ^o<o:表示等概率采取向左和向上两种动作。
  • ooo>:表示在当前状态只采取向右动作。
  • oooo:表示不采取行动。(目标点才有)

在这里插入图片描述

结束第一轮策略评估后:我们得到如下的状态价值,并且在策略提升后,可以看到每个状态点会朝着具有最大状态价值的节点行走的策略。

(策略数组表示选择 [上,下,左,右] 行动的概率。)

在这里插入图片描述

策略评估与策略提升交替迭代3次后,收敛输出如下:

在这里插入图片描述

1.5 Value Iteration

Policy Iteration需要等待policy evaluation完成,使得状态价值函数收敛后才进行Policy Improvement。然后随着状态增多,策略评估的收敛速度变慢,我们不必每次都等待状态价值函数完全收敛才提升策略。

Value Iteration的核心思想就是,我们只进行一次policy evaluation,而不必等待状态价值函数收敛。

但是需要注意的是,价值迭代中不存在显式的策略,我们只维护一个状态价值函数。

相比于策略迭代的递推式:
v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] v_{k+1}(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')] vk+1(s)=aπ(as)s,rp(s,rs,a)[r+γvk(s)]
价值迭代递推式如下:
v k + 1 ( s ) = max ⁡ a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] v_{k+1}(s) = \max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')] vk+1(s)=amaxs,rp(s,rs,a)[r+γvk(s)]

算法流程如下:

在这里插入图片描述

初始化及循环代码如下:

在这里插入图片描述

结束循环后,计算最优的确定性策略(若出现多个最大值,则等概率取最大。)

在这里插入图片描述

在经历4次迭代后,收敛到与策略迭代相同的最优解:

在这里插入图片描述

二. 实验结果与分析

(其余内容分析较烂,就只展示收敛误差吧。)

2.1 分析Policy Iteration和Value Iteration收敛误差随着迭代次数的分布曲线

我们使用wandb库进行可视化状态价值函数的收敛情况,在策略迭代中的三次交替过程中,收敛误差随迭代次数分布如下:

在这里插入图片描述

而价值迭代曲线如下:

在这里插入图片描述

分析可知,在首次策略评估中,由于初始化的是随机等概率策略,故评估误差的收敛十分缓慢,而在收敛后执行策略提升后得到了较优解,策略将朝着最优解迅速收敛。

反观价值迭代误差曲线,在前三次迭代中,状态价值函数的变化量都是1,这意味着每次迭代中至少有一个状态的价值发生了显著变化(靠近目标点的状态)。最后一次迭代中,状态价值函数的变化量为0,表示算法已经收敛到最优解。

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

如果皮卡会coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值