强化学习(Reinforcement Learning)

最新推荐文章于 2024-06-23 00:29:20 发布

梅mmmmm

最新推荐文章于 2024-06-23 00:29:20 发布

阅读量1.4k

点赞数

分类专栏：强化学习文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mei86233824/article/details/78780301

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习的本质可以说为是对贝尔曼方程( $Bellman\ equation$ )求最优近似解，强化学习的任务通常称为马尔可夫决策过程( $Markov\ Decision\ Process,\ MDP$ )。
应用场景就不说了…

MDP( $Markov\ Decision\ Process$ )

马尔可夫决策过程 $M=(S,\ A,\ ,{P_{sa},\ \gamma,\ R})$ :
- $S$ ：目标的状态集合
- $A$ ：目标可以做的所有动作集合
  $s 0 - \to - a 0 s 1 - \to - a 1 s 2 - \to - a 3 \dots$ $s_0 \xrightarrow{a_0} s_1 \xrightarrow{a_1} s_2 \xrightarrow{a_3}\cdots$
- $P_{sa}$ ：状态转移概率，某动作 $a\in A$ 作用于当前状态 $s\in S$ 上，则其转移到其他状态 $s'\in S$ 的概率
- $\gamma \in [0, 1)$ ：Discount factor，博弈论中称为’贴现因子’，可通俗的解释为10年后的一块钱在今天值多少。
- $R$ : $S * A \rightarrow \Bbb R$ 奖赏( $Reward$ )函数（若 $(s,\ a)$ 对应的下一个状态 $s'$ 是唯一的则 $R:\ s\rightarrow \Bbb R$ ）。目标以后的状态是我们想要的，就给一个比较大的奖赏值，反之就会得到较小的奖赏值。
至此MDP可表示为：

R(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+γ3R(s3,a3)+⋯

MDP求解

定义：

策略 $\pi:\ s\rightarrow a$ ，即在当前状态 $s$ 下如何选择动作 $a$ 。
状态价值函数:
$v π (s) = E [R (s 0) + γ R (s 1) + γ 2 R (s 2) + γ 3 R (s 3) + \dots | S 0 = s] = \sum a \in A p (a | s) (R a s + γ \sum s' \in S p π (s) s s' (s') v π (s'))$ $\begin{align} v^\pi(s)&=E[R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+\gamma^3 R(s_3)+\cdots|S_0=s]\\ &=\sum_{a\in A}p(a|s)(R_s^a+\gamma\sum_{s'\in S}p_{ss'}^{\pi(s)}(s')v^\pi(s')) \end{align}$
其中，
$p π (s) s s' (s') = p s π (s) (s') = p (S t + 1 = s' | S t = s, π (s) = a)$ $\begin{align} p_{ss'}^{\pi(s)}(s')&=p_{s\pi(s)}(s')\\ &=p(S_{t+1}=s'|S_t=s,\pi (s)=a) \end{align}$
得贝尔曼方程( $Bellman\ equation$ ):
$V π (s) = R (s) + γ \sum s' \in S P s π (s) (s') V π (s')$ $V^\pi(s)=R(s)+\gamma\sum_{s'\in S}P_{s\pi(s)}(s')V^\pi(s')$
同理得动作价值函数:
$q π (s, a) = E [R (s 0, a 0) + γ R (s 1, a 1) + γ 2 R (s 2, a 2) + γ 3 R (s 3, a 3) + \dots | S 0 = s, A 0 = a]$ $q^\pi(s, a)=E[R(s_0,a_0)+\gamma R(s_1,a_1)+\gamma^2 R(s_2,a_2)+\gamma^3 R(s_3,a_3)+\cdots|S_0=s, A_0=a]$

(注：当前状态 $s$ （白色圆）可能会有多个动作 $a$ （蓝色圆）供选择，动作 $a$ 所对应的下一个状态 $s'$ 可能不唯一)

求最优

求最优即寻找可以得到最大奖赏值的解，也就是最大化价值函数：

v * (s) = max π v π (s)

$v^*(s)=\max_\pi v^\pi(s)$

q * (s, a) = max π q π (s, a)

$q^*(s, a)=\max_\pi q^\pi (s, a)$

图：状态价值函数与动作价值函数之间的关系

图：状态价值函数与动作价值函数之间的关系

即求贝尔曼最优方程：

V * (s) = max a q * (s, a) = max a (R a S + γ \sum s' \in S P s π (s) V * (s'))

$V^*(s)=\max_aq^*(s, a)=\max_a(R_S^a+\gamma \sum_{s'\in S}P_{s\pi (s)}V^*(s'))$

q * (s, a) = R a s + γ \sum s' \in S P a s s' v * (s') = R a s + γ \sum s' \in S P s π (s) max a' q * (s', a')

$q^*(s, a)=R_s^a+\gamma \sum_{s'\in S}P_{ss'}^av^*(s')=R_s^a+\gamma \sum_{s'\in S}P_{s\pi(s)}\max_{a'}q*(s',a')$

π * (s) = arg max a \in A \sum s' \in S P s a (S') V * (s')

$\pi^*(s)=\arg\max_{a\in A}\sum_{s'\in S}P_{sa}(S')V^*(s')$

而想通过贝尔曼方程求最优策略的话至少需要满足：
- 模型为动态模型
- 模型满足Markov特性（即当前状态由上一状态及动作得到的）
- 另外需要大量计算空间及时间

求解贝尔曼方程近似最优解的方法如下：
- Value Iteration
- Policy Iteration
- 时序差分（Q-learning、Sarsa）
- ……

本文只讲 Value Iteration，Policy Iteration

Value Iteration

初始化 V(s)=0
重复至V(s)收敛 {
更新 $V(s)=R(s)+\max_{a\in A}\gamma\sum_{s'}P_{sa}(s')V(s').$
}

有两种更新方式：

synchronous 同步更新：计算每个状态s的V(s)新值，立即更新
asynchronous 异步更新：遍历所有状态s，按照某种顺序每次更新一个值

Policy Iteration

随机初始化策略 $\pi$
重复至收敛{
$V:=V^\pi$
对于每个状态 $s$ , $\pi(s)=\arg\max_{a\in A}\sum_{s'}P_{sa}(s')V(s').$
}

内部循环重复计算当前策略的值函数，然后使用当前值函数更新策略。最终 $V$ 会收敛到 $V^∗$ ， $\pi$ 收敛到 $\pi^∗$

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。