2020.12.7
背景
- 人类学习的基本动力是菜——沃.兹基硕德
强化学习是近年较当红的炸子鸡。所谓 强化学习 ,表示的是一种实体与环境的交互,是寻找一个得到最优态势策略的问题。白话言,如何在每个命运的节点,都能做出最正确的选择?
一个例子,作为命定的主角,上小学的你兜里有五块钱,你路过小卖铺,非常想吃可爱多冰淇淋,但你一个月只有这五块零花钱,世界线在此分开。
- 短期收益:你一咬牙一跺脚,买了!你收获了吃冰淇淋的快乐,并长胖了一斤。
- 长期收益:你一步三回头的离开了小卖铺,但是由于攒下了这五块钱,下个月成功的用十块钱买了你最爱的漫画单行本。
- 有博弈存在的情况:你快乐的吃到了巧克力味冰淇淋,但你阴险的老哥用五块钱买了一个漂亮头花送给了皇太后。太后心甚悦,决定把你下个月的零花钱挪给你哥。
由此可见,在现实中,由于环境的复杂性,决策的长期获益难以估计,是故当今的强化学习更多的用在规则固定,缺少随机性的事件上,最典型的就是游戏。从围棋象棋等传统棋类对抗游戏到星际争霸等大型网络游戏,强化学习都有较好的表现。
马尔可夫决策模型(MDP)
M
=
(
S
,
A
,
T
,
R
)
M=(S,A,T,R)
M=(S,A,T,R)
强化学习,可表述为决策的集合。一个决策过程由四要素构成:
- S:当前状态,比如兜里有五块钱。
- A:动作,比如买冰淇淋。
- T:状态转移概率,比如买冰淇淋动作执行后,下一状态有0.9概率吃到冰淇淋,0.1概率冰淇淋掉地死无全尸。
- R:回报,比如长了半斤肉。
具体可表述为,在状态
S
i
S_i
Si下选择进行动作
A
j
A_j
Aj,按照
T
T
T的概率分布转移到下一状态
S
i
+
1
S_{i+1}
Si+1,获得回报
R
i
R_i
Ri。定义在状态下选择动作的策略映射为
π
:
S
→
A
\pi:S \rightarrow A
π:S→A。注意,整个模型中存在两个概率分布,一个是策略,一个是不同动作产生的下一状态,两者是不同的。
正如下棋时每步落子的目的都是赢,短期的即时利益并不是我们最想得到的,在此对长期收益定义如下:
γ
\gamma
γ折扣率取值[0,1],表示跨过时间长河传回来的收益会有些损耗,在考虑中占少一些的比例。
为了评估长期利益,当今强化学习的训练算法存在两种走向。
价值迭代与策略迭代
- 价值迭代
一种较为贪心的训练方法,不预加约束,直接评估最优价值,迭代公式如下:
其更新目标为每个状态S的长期价值。 - 策略迭代
先预设一个策略,之后进行当前策略下最优长期价值的迭代
之后对策略进行优化
价值函数
我们的目标是寻找能够获得最大价值的策略,以此决定每一步状态下的动作,在此对两个价值函数进行定义。
- 状态价值函数
当前状态s,特定策略下的长久期望。 - 动作价值函数
当前状态s,选择动作a的长期期望,与前者是棋拿在手里与落了一子的区别,只多执行了一步动作。
Bellman期望方程
将状态价值函数展开,
V
π
(
s
)
=
∑
a
π
(
a
∣
s
)
(
R
(
s
,
a
)
+
γ
∑
s
′
(
P
(
s
′
∣
a
,
s
)
V
π
(
s
′
)
)
)
V_{ \pi }(s)=\sum_a \pi(a|s)(R(s,a)+\gamma\sum_{s'}(P(s'|a,s)V_{\pi}(s')))
Vπ(s)=a∑π(a∣s)(R(s,a)+γs′∑(P(s′∣a,s)Vπ(s′)))
同理,动作价值函数可表示为:
Q
π
(
s
,
a
)
=
R
(
s
,
a
)
+
γ
∑
s
′
(
P
(
s
′
∣
a
,
s
)
V
π
(
s
′
)
)
Q_{ \pi }(s,a)=R(s,a)+\gamma\sum_{s'}(P(s'|a,s)V_{\pi}(s'))
Qπ(s,a)=R(s,a)+γs′∑(P(s′∣a,s)Vπ(s′))
可以清楚看到
V
π
(
s
)
=
∑
a
π
(
a
∣
s
)
Q
π
(
s
,
a
)
V_{ \pi }(s)=\sum_a \pi(a|s)Q_{ \pi }(s,a)
Vπ(s)=a∑π(a∣s)Qπ(s,a)
故,我们的任务可由下式表达:
m
a
x
(
V
π
(
s
)
)
max(V_{\pi}(s))
max(Vπ(s))当前状态下所有可能动作与后续。
m
a
x
(
Q
π
(
s
,
a
)
)
max(Q_{\pi}(s,a))
max(Qπ(s,a))当前状态下执行某动作后续
分别对应价值迭代与策略迭代。
参考
1: https://zhuanlan.zhihu.com/p/25319023
2: http://nooverfit.com/wp/15-%E5%A2%9E%E5%BC%BA%E5%AD%A6%E4%B9%A0101-%E9%97%AA%E7%94%B5%E5%85%A5%E9%97%A8-reinforcement-learning/