强化学习本质
强化学习的本质是定义在一系列概率测度集合上的函数,我们可以把概率测度所构成的集合抽象出来,只要给出回报函数,这个回报函数的定义域就是测度函数集合,也就是泛函。为了构建直接的策略迭代法,我们先构建概率测度集合所构成的空间,希望在空间上引入计算,这样就可以按照初等函数的优化方法,来解决强化学习的优化问题。这里举一个浅显的例子:
假设让10个人预测股票涨跌,每个人都会给出股票涨和不涨的概率,可以理解为同一件事,我们有10个不同的概率测度,那么假设给定一段时间,每天判断一次,我们需要选择出一个预测最准的人,来按他的预测操作股票,这个就是一个强化学习任务。我要解决的就是把每个人的观点看做一个元素,把目标函数直接建立在这些观点之上,然后再构建一些优化算法,直接对观点进行优化。最终的构想是这样的,如果给一个目标函数
R
(
π
)
R(\pi)
R(π),其中
π
\pi
π是一个分布,那么想构建像实数域上的优化问题,即设想有如下的方程存在:
R
(
π
)
=
R
(
π
0
)
+
R
′
(
π
0
)
⋅
d
i
s
t
a
n
c
e
(
π
,
π
0
)
+
o
(
d
i
s
t
a
n
c
e
(
π
,
π
0
)
)
R(\pi)=R(\pi_{_0})+R'(\pi_{_0})·distance(\pi,\pi_{_0})+o(distance(\pi,\pi_{_0}))
R(π)=R(π0)+R′(π0)⋅distance(π,π0)+o(distance(π,π0))
这样就可以直接优化R了。思路来源于强化学习中的直接策略搜索法。
一、Ω上的概率测度构成的集合
定义概率测度集
设
Ω
\Omega
Ω是事件集合,
F
\mathbb{F}
F是
Ω
\Omega
Ω生成的
σ
\sigma
σ代数,
P
\mathbb{P}
P是
F
\mathbb{F}
F上的一个概率测度,由
F
\mathbb{F}
F上所有的概率测度
P
\mathbb{P}
P构成的集合,称为概率测度集,记作
C
\mathbb{C}
C。
二、引入运算和逆元
为了使得定义的集合元素之间可以进行运算,这里要定义概率测度集元素之间的运算。
1、元素之间的加法定义
概率测度集
C
\mathbb{C}
C中的每一个元素都表示概率测度,其本身是一个函数,我们定义的加法要从实际意义来出发,两个概率测度的和应该怎么定义呢,比如,甲对股票A上涨的看法是70%的概率上涨,30%的概率是不涨;而乙的看法是40%概率上涨,60%概率不涨,那么甲、乙的观点就是两个概率测度,他们的观点相加具有什么意义呢,可以这样理解每个人基于个人的信息对同一件事做出判断,那么相加的话,也应该把这些人掌握的信息相加,所以,我们取熵作为一个概率测度的信息量,两个人的概率测度相加,(信息的相加可以转换为不确定性的相加,也可以转换为确定性的相加,二者差一个常数,所以是对偶的),这里为了方便,相加就取两个概率测度的熵相加:
定义1:加法
∀
f
1
,
f
2
∈
C
\forall f_{_1},f_{_2} \in \mathbb{C}
∀f1,f2∈C,则加法表示的含义是对应的熵相加的到的熵和,这个熵和所对应的概率测度
f
f
f:
h
(
f
)
=
h
(
f
1
)
+
h
(
f
2
)
=
h
(
f
1
)
+
h
(
f
2
)
=
∫
a
b
−
x
l
o
g
(
f
1
(
x
)
)
d
x
+
∫
a
b
−
x
l
o
g
(
f
2
(
x
)
)
d
x
=
∫
a
b
−
x
l
o
g
(
f
1
(
x
)
f
2
(
x
)
)
d
x
\begin{aligned} h(f)&=h(f_{_1})+h(f_{_2}) \\ &= h(f_{_1})+h(f_{_2})\\ &=\int_{a}^{b} -xlog\big(f_{_1}(x)\big) \mathrm{d}x +\int_{a}^{b} -xlog\big(f_{_2}(x)\big) \mathrm{d}x \\ &=\int_{a}^{b} -xlog\big(f_{_1}(x)f_{_2}(x)\big) \mathrm{d}x \end{aligned}
h(f)=h(f1)+h(f2)=h(f1)+h(f2)=∫ab−xlog(f1(x))dx+∫ab−xlog(f2(x))dx=∫ab−xlog(f1(x)f2(x))dx
根据熵的定义,得到概率测度的和
f
f
f的表达式:
f
=
f
1
⊕
f
2
:
=
f
1
(
x
)
f
2
(
x
)
(1)
f=f_{_1}\oplus f_{_2} :=f_{_1}(x)f_{_2}(x) \tag{1}
f=f1⊕f2:=f1(x)f2(x)(1)
即两个概率测度的和,我们定义为两个概率测度的密度函数之积,如果积再取一个根号,就变成了几何平均了,再来审视我们的定义有没有问题,这样定义的加法可能不具有封闭性,即得到的
f
f
f可能不是一个概率分布,这个时候我们必须要修正定义:
定义2:封闭的概率测度加法
对定义1我们施加一个约束,使得定义(1)中的结果是一个概率分布即可,这里也比较简单,只需标准化处理即可,即修改加法满足如下形式:
f
=
f
1
⊕
f
1
:
=
f
1
(
x
)
f
2
(
x
)
∫
a
b
f
1
(
x
)
f
2
(
x
)
d
x
(2)
f=f_{_1}\oplus f_{_1} :=\frac{f_{_1}(x)f_{_2}(x)}{\int_{a}^{b} f_{_1}(x)f_{_2}(x) \mathrm{d}x} \tag{2}
f=f1⊕f1:=∫abf1(x)f2(x)dxf1(x)f2(x)(2)
2、0元素
0元素表示什么呢,这里我们以信息来理解,0就是表示无任何外部信息的情况下的概率分布,比如掷骰子,如果不给你任何骰子的信息,问你每一面出现的概率是多大,最好的猜测方式就是6个面等概率,这个时候概率分布的熵最大,也就是不确定性最大,如果给你说骰子中间注入了铅,容易出现点数3,那你在猜测时,肯定把3出现的概率调高,这个时候因为我们有了额外的信息,所以,我们得到如下0元素的定义:
定义3:0元素
均匀分布的不确定性最大,没有任何额外信息,因此,定义均匀分布的概率测度函数是0元素;考虑一维的情况,给定区间
[
a
,
b
]
[a,b]
[a,b],其中
a
<
b
a\lt b
a<b,且都是有限实数,则密度函数
f
f
f:
f
=
1
b
−
a
f=\frac{1}{b-a}
f=b−a1
f
f
f就是事件空间
[
a
,
b
]
[a,b]
[a,b]上均匀分布的密度,也就是我们定义的概率测度集合中的0元素。
3、加法的逆元
一个元素的逆定义为与该元素相加,结果是0,则这两个元素互逆;
定义4:逆元
∀
f
∈
C
\forall f \in \mathbb{C}
∀f∈C,如果:
f
⊕
f
−
1
=
0
f\oplus f^{-1}=0
f⊕f−1=0
则称
f
−
1
f^{-1}
f−1是
f
f
f的逆元。
有了逆元的定义,我们来看一个例子:
例1: 求一维区间[a,b]上的概率测度构成的空间,给出
∀
f
∈
C
\forall f \in \mathbb{C}
∀f∈C,求
f
f
f的逆元
f
−
1
f^{-1}
f−1。
解:根据加法定义:
f
⊕
f
−
1
=
f
(
x
)
f
−
1
(
x
)
∫
a
b
f
(
x
)
f
−
1
(
x
)
d
x
=
1
b
−
a
\begin{aligned} f\oplus f^{-1}=\frac{f(x)f^{-1}(x)}{\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x}=\frac{1}{b-a} \end{aligned}
f⊕f−1=∫abf(x)f−1(x)dxf(x)f−1(x)=b−a1
假设已知
f
f
f,求
f
−
1
f^{-1}
f−1,那么现在来解方程:
f
(
x
)
f
−
1
(
x
)
∫
a
b
f
(
x
)
f
−
1
(
x
)
d
x
=
1
b
−
a
f
(
x
)
f
−
1
(
x
)
=
(
b
−
a
)
∫
a
b
f
(
x
)
f
−
1
(
x
)
d
x
\begin{aligned} \frac{f(x)f^{-1}(x)}{\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x}&=\frac{1}{b-a} \\ f(x)f^{-1}(x)&=(b-a)\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x \end{aligned}
∫abf(x)f−1(x)dxf(x)f−1(x)f(x)f−1(x)=b−a1=(b−a)∫abf(x)f−1(x)dx
因为
(
b
−
a
)
(b-a)
(b−a)是常数,
∫
a
b
f
(
x
)
f
−
1
(
x
)
d
x
\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x
∫abf(x)f−1(x)dx是常数,我们令常数c:
c
=
(
b
−
a
)
∫
a
b
f
(
x
)
f
−
1
(
x
)
d
x
c=(b-a)\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x
c=(b−a)∫abf(x)f−1(x)dx
则得到:
f
(
x
)
f
−
1
(
x
)
=
c
f(x)f^{-1}(x)=c
f(x)f−1(x)=c
显然
f
−
1
f^{-1}
f−1满足初等函数的倒数定义,且下面的倒数是方程的解:
f
−
1
=
1
f
f^{-1}=\frac{1}{f}
f−1=f1
但是,密度函数一定存在倒数吗,我们在定义概率测度集合时,并没有要求概率测度存在倒数(连续情况下,概率测度就是密度函数),那存不存在没有倒数的密度函数呢,答案是肯定的,看看下面的概率密度函数:
f
(
x
)
=
x
+
3
2
x
2
,
x
∈
[
0
,
1
]
f(x)=x+\frac{3}{2}x^2,x\in[0,1]
f(x)=x+23x2,x∈[0,1]
f
(
x
)
f(x)
f(x)满足[0,1]上密度函数的定义,但是
f
(
x
)
f(x)
f(x)的倒数并不存在,因为
f
(
x
)
f(x)
f(x),在
x
=
0
x=0
x=0这一点上不存在倒数,那么该怎么做?在我们给定的概率测度集合中,有一些是不存在倒数的,这些不存在倒数的位置我们称之为“狼”,其他的称之为“羊”,现在可以做的是扎起篱笆,把狼赶出去,即不允许密度函数在某一点不存在倒数,但是我们会排除掉很多概率测度;这里为了建立更加一般性的方法,允许“狼”出现,那么我们就可以把自变量分为两拨:
- “狼们”: L a n g = { x ∣ f ( x ) = 0 } Lang=\{x|f(x)=0\} Lang={x∣f(x)=0};
- “羊们”: Y a n g = { x ∣ f ( x ) < > 0 } Yang=\{x|f(x)\lt \gt 0\} Yang={x∣f(x)<>0}
由于 f ( x ) f(x) f(x)是密度函数,则必然是可测函数,所以“狼们”和“羊们”这两个集合一定可测,即存在“长度”的。为了更加普适性,我们允许密度函数 f ( x ) f(x) f(x)不连续,那么文中所涉及的积分概念,也将从黎曼积分转向勒贝格积分,在勒贝格积分框架下,我们来看密度函数,应满足:
- ∀ E ∈ F , ∫ E f ( x ) d x ≥ 0 \forall E \in \mathbb{F},\int\limits_{E}{f(x)}\mathrm{d}x\ge 0 ∀E∈F,E∫f(x)dx≥0;
- ∀ E 1 , E 2 ∈ F , 如 果 E 1 ⊂ E 2 , 则 ∫ E 1 f ( x ) d x < ∫ E 2 f ( x ) d x \forall E1,E2 \in \mathbb{F},如果E1\subset E2,则\int\limits_{E1}{f(x)}\mathrm{d}x \lt \int\limits_{E2}{f(x)}\mathrm{d}x ∀E1,E2∈F,如果E1⊂E2,则E1∫f(x)dx<E2∫f(x)dx;
-
∫
Ω
f
(
x
)
d
x
=
1
\int\limits_{\Omega}{f(x)}\mathrm{d}x=1
Ω∫f(x)dx=1
根据勒贝格积分的定义,可以得到:
∫ Ω f ( x ) d x = ∫ L a n g f ( x ) d x + ∫ Y a n g f ( x ) d x = ∫ Y a n g f ( x ) d x = 1 \int\limits_{\Omega}{f(x)}\mathrm{d}x=\int\limits_{Lang}{f(x)}\mathrm{d}x + \int\limits_{Yang}{f(x)}\mathrm{d}x= \int\limits_{Yang}{f(x)}\mathrm{d}x=1 Ω∫f(x)dx=Lang∫f(x)dx+Yang∫f(x)dx=Yang∫f(x)dx=1
即我们只要求概率在集合
Y
a
n
g
Yang
Yang上为1,就可以了。同样的,当取倒数时,
f
(
x
)
f(x)
f(x)在集合“Lang”上不可求倒数,但是我们的概率不依赖于这个集合,我们就可以直接撇开Lang这个集合,来直接定义
f
(
x
)
f(x)
f(x)的倒数,但是为了保持取倒数后,自变量
x
x
x的范围保持不变,这里仍然将倒数的定义域延拓到集合“Lang”上,只要保证取倒数在这部分的积分为0即可,那就很简单,只需将这部分的倒数定义为0即可,即我们得到拓展后的倒数概念:
f
−
1
(
x
)
=
{
0
x
∈
L
a
n
g
1
f
(
x
)
x
∈
Y
a
n
g
(3)
f^{-1}(x) = \begin{cases} 0 \qquad & x \in Lang \\ \frac{1}{f(x)} \qquad & x \in Yang \end{cases} \tag{3}
f−1(x)={0f(x)1x∈Langx∈Yang(3)
到此,我们已经完成了逆元的初步定义,即如方程(3)中给出的密度函数的倒数。这是不是意味着我们得到了逆元?我们发现
1
f
\frac{1}{f}
f1不一定是密度函数,即求逆后不是封闭运算,这个是个大问题。解决方案依然是标准化处理,我们采取归一化操作:
f
−
1
(
x
)
=
1
f
⋅
1
∫
a
b
1
f
(
x
)
d
x
(4)
f^{-1}(x)=\frac{1}{f}·\frac{1}{\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x} \tag{4}
f−1(x)=f1⋅∫abf(x)1dx1(4)
写成勒贝格测度下的积分形式:
f
−
1
(
x
)
=
1
f
⋅
1
∫
Ω
1
f
(
x
)
d
x
(5)
f^{-1}(x)=\frac{1}{f}·\frac{1}{\int\limits_{\Omega} \frac{1}{f(x)} \mathrm{d}x} \tag{5}
f−1(x)=f1⋅Ω∫f(x)1dx1(5)
归一化操作,我们引入了倒数的积分,但是,又会出现另一个问题,倒数的积分存在吗,即
∫
a
b
1
f
(
x
)
d
x
\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x
∫abf(x)1dx存在吗?答案是不一定,就比如例1中的密度函数。如果积分不存在,解决方案有两种,一种是我们硬性要求,密度函数的导数存在积分,但是这种方法就不具有普适性了,我们用另一种思路来解决,我们为什么要求积分存在,积分不存在的话,公式(4)是无意义的吗,如果积分即使不存在,公式(4)仍然有意义,且满足密度函数的定义,那么就可以了吗。现在来证明公式(4)是密度函数。
证明:
第一步,证明单调,即:
∀
E
1
,
E
2
∈
F
,
如
果
E
1
⊂
E
2
,
则
∫
E
1
f
−
1
(
x
)
d
x
<
∫
E
2
f
−
1
(
x
)
d
x
\forall E1,E2 \in \mathbb{F},如果E1\subset E2,则\int\limits_{E1}{f^{-1}(x)}\mathrm{d}x \lt \int\limits_{E2}{f^{-1}(x)}\mathrm{d}x
∀E1,E2∈F,如果E1⊂E2,则E1∫f−1(x)dx<E2∫f−1(x)dx
因为
f
−
1
(
x
)
f^{-1}(x)
f−1(x)非负,单调性很显然成立;
第二步,证明有界,即证明
∀
E
∈
F
\forall E \in \mathbb{F}
∀E∈F,
∫
E
f
−
1
(
x
)
d
x
∈
[
0
,
1
]
\int\limits_{E} {f^{-1}(x)} \mathrm{d}x \in [0,1]
E∫f−1(x)dx∈[0,1]
因为
f
−
1
(
x
)
f^{-1}(x)
f−1(x)非负,所以,
∫
E
f
−
1
(
x
)
d
x
>
=
0
\int\limits_{E} {f^{-1}(x)} \mathrm{d}x >=0
E∫f−1(x)dx>=0;
又因为:
∫
E
f
−
1
(
x
)
d
x
=
∫
E
1
f
(
x
)
⋅
1
∫
Ω
1
f
(
x
)
d
x
d
x
=
∫
E
1
f
(
x
)
d
x
∫
Ω
1
f
(
x
)
d
x
\begin{aligned} \int\limits_{E} {f^{-1}(x)} \mathrm{d}x &=\int\limits_{E} \frac{1}{f(x)}·\frac{1}{\int\limits_{\Omega} \frac{1}{f(x)} \mathrm{d}x} \mathrm{d}x\\ &=\frac{\int\limits_{E} \frac{1}{f(x)}\mathrm{d}x }{\int\limits_{\Omega} \frac{1}{f(x)} \mathrm{d}x} \end{aligned}
E∫f−1(x)dx=E∫f(x)1⋅Ω∫f(x)1dx1dx=Ω∫f(x)1dxE∫f(x)1dx
因为
E
⊆
Ω
E \subseteq \Omega
E⊆Ω,所以比值不大于1,第二步证明完毕。
整个证明过程不需要倒数的积分存在,或更直接的说,不要求倒数的积分有限。
最后,我们验证下,按公式(4)给出的逆元满足定义在[a,b]上的概率测度的逆元定义。
证明: 根据加法的定义:
f
⊕
f
−
1
=
f
⋅
1
f
1
∫
a
b
1
f
(
x
)
d
x
∫
a
b
f
⋅
1
f
1
∫
a
b
1
f
(
x
)
d
x
d
x
=
1
∫
a
b
d
x
=
1
b
−
a
\begin{aligned} f\oplus f^{-1}&=\frac{f· \frac{1}{f} \frac{1}{\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x}}{ \int_{a}^{b} f· \frac{1}{f} \frac{1}{\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x} \mathrm{d}x} \\ &=\frac{1}{\int_{a}^{b}\mathrm{d}x}\\ &=\frac{1}{b-a} \end{aligned}
f⊕f−1=∫abf⋅f1∫abf(x)1dx1dxf⋅f1∫abf(x)1dx1=∫abdx1=b−a1
证毕!
最终,我们按公式(4)给出了加法的逆元计算。
4、减法
在实数域,减法定义为被减数和减数的相反数(相反数就是加法的逆元)之间的和,所以,这里我们也把减法转换为加法来定义;
定义5:减法
∀
f
1
,
f
2
∈
C
\forall f_{_1},f_{_2} \in \mathbb{C}
∀f1,f2∈C,
f
1
⊖
f
2
f_{_1} \ominus f_{_2}
f1⊖f2定义为:
f
1
⊖
f
2
:
=
f
1
⊕
f
2
−
1
f_{_1} \ominus f_{_2}:=f_{_1} \oplus f_{_2}^{-1}
f1⊖f2:=f1⊕f2−1
很显然,因为我们的逆元封闭,加法也封闭,所以,我们的减法也是封闭运算。
总结:
- 同一个样本空间,可以有不同的概率测度,因此构建了概率测度的集合;
- 根据信息(不确定性)的大小,定义均匀分布的概率测度是0元素;
- 对概率测度集合引入加法和加法的逆元,使得元素之间可加减;
其实还可以证明我们构造的空间满足:
- 加法交换律
- 加法的结合律
需要解决的问题:不能拓展到无限区间,即均匀分布只在有限区间上有意义,在无限区间上无意义。