模型无关控制方法

最新推荐文章于 2024-07-19 16:50:04 发布

芝士小季

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量31

点赞数

分类专栏：动手学强化学习文章标签：人工智能算法

本文链接：https://blog.csdn.net/Demoo26/article/details/135000632

版权

动手学强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

模型无关控制方法

模型无关的控制应用场景

一些能够被建模成马尔可夫决策过程的问题示例
电梯，平行泊车，船舶操纵，生物反应器，直升机，飞机物流，机器人行走，围棋对弈

在这里插入图片描述

对于大部分真实世界中的问题：

MDP模型为未知，但能够从经验中采样
MDP模型为已知，但规模太大难以直接使用，只能通过采样

模型无关的控制能够解决上述问题

在线策略和离线策略学习

两类模型无关的强化学习

在线策略学习（on-policy）
- Learning on the job
- 利用策略 $\pi$ 的经验采样不断学习改进策略 $\pi$
离线策略学习（off-policy）
- Look over someone’s shoulder
- 利用另一个策略 $\mu$ 的经验采样不断学习改进策略 $\pi$

状态值和状态-动作值

$G_{t}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1}R_{T}$

状态值
马尔可夫决策过程的 状态值函数 $V^{\pi}(S)$ 是指从状态 $s$ 开始，执行策略 $\pi$ 的期望累计奖励

$V^{\pi}(s)=\mathbb{E}_{\pi}[G_{t}|S_{t}=s]$

状态-动作值
马尔可夫决策过程的 状态-动作值函数 $Q^{\pi}(s,a)$ 是指从状态 $s$ 开始，执行动作 $a$ 之后，执行策略 $\pi$ 的期望累计奖励

$Q^{\pi}(s,a)=\mathbb{E}_{\pi}[G_{t}|S_{t}=s,A_{t}=a]$

贝尔曼期望方程

状态值函数 $V^{\pi}(s)$ 可被分解为即时奖励加上后续状态的折扣值

$V^{\pi}(s)=\mathbb{E}_{\pi}[R_{t+1}+\gamma V^{\pi}(S_{t+1})|S_{t}=s]$

状态-动作值函数 $Q^{\pi}(s,a)$ 也能被类似的分解

$Q^{\pi}(s,a)=\mathbb{E}_{\pi}[R_{t+1}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_{t}=s,A_{t}=a]$

$V^{\pi}(s)=\sum_{a \in A}{\pi(a|s)Q^{\pi}(s,a)}$

在这里插入图片描述

$Q^{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}{P_{sa}(s')V^{\pi}(s')}$

在这里插入图片描述

模型无关的策略迭代

给定状态值函数 $V (s)$ 和状态-动作值函数 $Q (s, a)$ ，模型无关的策略迭代应使用状态-动作值函数

基于状态值函数 $V (s)$ 的贪心策略改进需要建立马尔可夫决策过程模型

$\pi^{new}(s)=\arg\max_{a\in A}\left\{R(s,a)+\gamma\sum_{s'\in S}{P_{sa}(s')V^{\pi}(s')}\right\}$

我们不知道状态转移概率 $P_{sa}(s')$ ，所以无法对其直接求解

基于状态-动作值函数 $Q (s, a)$ 的贪心策略改进是模型无关的

$\pi^{new}(s)=\arg\max_{a \in A}{Q(s,a)}$

使用状态-动作值函数的广义策略迭代

在这里插入图片描述

策略评估： 蒙特卡洛策略评估， $Q=Q^{\pi}$
策略改进： 贪心策略改进

贪心动作选择（Greedy Action Selection）示例

基于 $Q (s, a)$ 的贪心策略改进是模型无关的

$\pi^{new}(s)=\arg\max_{a \in A}{Q(s,a)}$

在这里插入图片描述

如上图的例子
假如第一次选择左边的门且获得的观测奖励 = 0，那么很可能就会陷入局部最优

如果没有探索，策略将是次优的

$\varepsilon-greedy$ 策略探索

确保持续探索最简单的想法
所有m个动作都以非零概率进行尝试

以 $1-\epsilon$ 的概率，选择贪心动作
以 $\epsilon$ 的概率，随机选择一个动作

$\pi(a|s)= \begin{cases} \frac{\epsilon}{m}+1-\epsilon & if\quad a^{*}=\arg\max\limits_{a\in A}{Q(s,a)} \\ \frac{\epsilon}{m} & otherwise \end{cases}$