7. 最优策略

aganim

已于 2023-12-23 21:04:28 修改

阅读量92

点赞数

分类专栏：我的强化学习笔记文章标签：机器学习

于 2023-12-21 19:09:02 首次发布

本文链接：https://blog.csdn.net/caijungan/article/details/135132688

版权

我的强化学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章目录

1. 强化学习算法的形式化描述
2. 何谓最优策略
- 2.1 两个策略的优劣
- 2.2 最优策略
3. 求解最优策略

1. 强化学习算法的形式化描述

定义1个离散时间的折扣马尔科夫决策过程 $M=<S,A,P,R,\gamma>$ ，其中，S,A,P,R, $\gamma$ 分别为状态空间，动作空间，状态转移概率，立即回报函数，折扣因子。T为总的时间步， $\tau$ 为一个轨迹序列， $\tau =(s_0,a_0,r_0,s_1,a_1,r_1,\cdots)$ ,对应累积回报 $R=\sum_{t=0}^T\gamma^kr_t$ ，强化学习的目标是：
找到最优策略 $\pi$ ，使得该策略下，累积回报期望最大，即： $\pi=\arg\max_\pi R(\tau)$

总之，强化学习的目标就是：
找到最优策略！！！

2. 何谓最优策略

2.1 两个策略的优劣

已知策略 $\pi_a$ 和 $\pi_b$ ，若对 $\forall s\in S$ ，都有 $V_{\pi_a}(s)\ge V_{\pi_b}(s)$ ，则称 $\pi_a$ 优于 $\pi_b$ ，记作： $\pi_a\ge \pi_b$
用通俗的话讲：若策略A在环境处于任何状态下，都比策略B能获得更多的累积回报，则A优于B。例如：若围棋手A在任何棋局下，都比围棋手B，更快地赢得棋局，则说明A采用的策略优于B采用的策略。

2.2 最优策略

对于任何马尔科夫决策过程，在所有可能采取的策略空间中，总存在一个策略 $\pi^*$ ，优于其他所有策略，则称该策略为该过程的最优策略，即：
$\pi^*\ge\pi, \forall \pi$

3. 求解最优策略

由最优行为值函数及最优状态值函数的定义可知，策略最优时，值函数也最优，反过来值最优，策略也最优。
最优策略是确定性策略，因而最优策略可用函数 $\pi^*(s)$ 表示，输出的是状态s下的最优动作。
（1）已知 $V^*$ ，求 $\pi^*(s)$
$\pi^*(s)=\arg\max_{a\in A}\left[ R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV^*(s') \right]$
(2)已知 $Q^*(s,a)$ ，求 $\pi^*(s)$
$\pi^*(s)=\arg\max_{a\in A}Q^*(s,a)$