强化学习的理解:基于概率测度(一)

强化学习本质

     强化学习的本质是定义在一系列概率测度集合上的函数,我们可以把概率测度所构成的集合抽象出来,只要给出回报函数,这个回报函数的定义域就是测度函数集合,也就是泛函。为了构建直接的策略迭代法,我们先构建概率测度集合所构成的空间,希望在空间上引入计算,这样就可以按照初等函数的优化方法,来解决强化学习的优化问题。这里举一个浅显的例子:
     假设让10个人预测股票涨跌,每个人都会给出股票涨和不涨的概率,可以理解为同一件事,我们有10个不同的概率测度,那么假设给定一段时间,每天判断一次,我们需要选择出一个预测最准的人,来按他的预测操作股票,这个就是一个强化学习任务。我要解决的就是把每个人的观点看做一个元素,把目标函数直接建立在这些观点之上,然后再构建一些优化算法,直接对观点进行优化。最终的构想是这样的,如果给一个目标函数 R ( π ) R(\pi) R(π),其中 π \pi π是一个分布,那么想构建像实数域上的优化问题,即设想有如下的方程存在:
R ( π ) = R ( π 0 ) + R ′ ( π 0 ) ⋅ d i s t a n c e ( π , π 0 ) + o ( d i s t a n c e ( π , π 0 ) ) R(\pi)=R(\pi_{_0})+R'(\pi_{_0})·distance(\pi,\pi_{_0})+o(distance(\pi,\pi_{_0})) R(π)=R(π0)+R(π0)distance(π,π0)+o(distance(π,π0))
这样就可以直接优化R了。思路来源于强化学习中的直接策略搜索法。

一、Ω上的概率测度构成的集合

定义概率测度集
     设 Ω \Omega Ω是事件集合, F \mathbb{F} F Ω \Omega Ω生成的 σ \sigma σ代数, P \mathbb{P} P F \mathbb{F} F上的一个概率测度,由 F \mathbb{F} F上所有的概率测度 P \mathbb{P} P构成的集合,称为概率测度集,记作 C \mathbb{C} C

二、引入运算和逆元

     为了使得定义的集合元素之间可以进行运算,这里要定义概率测度集元素之间的运算。
1、元素之间的加法定义
    概率测度集 C \mathbb{C} C中的每一个元素都表示概率测度,其本身是一个函数,我们定义的加法要从实际意义来出发,两个概率测度的和应该怎么定义呢,比如,甲对股票A上涨的看法是70%的概率上涨,30%的概率是不涨;而乙的看法是40%概率上涨,60%概率不涨,那么甲、乙的观点就是两个概率测度,他们的观点相加具有什么意义呢,可以这样理解每个人基于个人的信息对同一件事做出判断,那么相加的话,也应该把这些人掌握的信息相加,所以,我们取熵作为一个概率测度的信息量,两个人的概率测度相加,(信息的相加可以转换为不确定性的相加,也可以转换为确定性的相加,二者差一个常数,所以是对偶的),这里为了方便,相加就取两个概率测度的熵相加:
定义1:加法
     ∀ f 1 , f 2 ∈ C \forall f_{_1},f_{_2} \in \mathbb{C} f1,f2C,则加法表示的含义是对应的熵相加的到的熵和,这个熵和所对应的概率测度 f f f
h ( f ) = h ( f 1 ) + h ( f 2 ) = h ( f 1 ) + h ( f 2 ) = ∫ a b − x l o g ( f 1 ( x ) ) d x + ∫ a b − x l o g ( f 2 ( x ) ) d x = ∫ a b − x l o g ( f 1 ( x ) f 2 ( x ) ) d x \begin{aligned} h(f)&=h(f_{_1})+h(f_{_2}) \\ &= h(f_{_1})+h(f_{_2})\\ &=\int_{a}^{b} -xlog\big(f_{_1}(x)\big) \mathrm{d}x +\int_{a}^{b} -xlog\big(f_{_2}(x)\big) \mathrm{d}x \\ &=\int_{a}^{b} -xlog\big(f_{_1}(x)f_{_2}(x)\big) \mathrm{d}x \end{aligned} h(f)=h(f1)+h(f2)=h(f1)+h(f2)=abxlog(f1(x))dx+abxlog(f2(x))dx=abxlog(f1(x)f2(x))dx
根据熵的定义,得到概率测度的和 f f f的表达式:
f = f 1 ⊕ f 2 : = f 1 ( x ) f 2 ( x ) (1) f=f_{_1}\oplus f_{_2} :=f_{_1}(x)f_{_2}(x) \tag{1} f=f1f2:=f1(x)f2(x)(1)
    即两个概率测度的和,我们定义为两个概率测度的密度函数之积,如果积再取一个根号,就变成了几何平均了,再来审视我们的定义有没有问题,这样定义的加法可能不具有封闭性,即得到的 f f f可能不是一个概率分布,这个时候我们必须要修正定义:
定义2:封闭的概率测度加法
    对定义1我们施加一个约束,使得定义(1)中的结果是一个概率分布即可,这里也比较简单,只需标准化处理即可,即修改加法满足如下形式:
f = f 1 ⊕ f 1 : = f 1 ( x ) f 2 ( x ) ∫ a b f 1 ( x ) f 2 ( x ) d x (2) f=f_{_1}\oplus f_{_1} :=\frac{f_{_1}(x)f_{_2}(x)}{\int_{a}^{b} f_{_1}(x)f_{_2}(x) \mathrm{d}x} \tag{2} f=f1f1:=abf1(x)f2(x)dxf1(x)f2(x)(2)

2、0元素
    0元素表示什么呢,这里我们以信息来理解,0就是表示无任何外部信息的情况下的概率分布,比如掷骰子,如果不给你任何骰子的信息,问你每一面出现的概率是多大,最好的猜测方式就是6个面等概率,这个时候概率分布的熵最大,也就是不确定性最大,如果给你说骰子中间注入了铅,容易出现点数3,那你在猜测时,肯定把3出现的概率调高,这个时候因为我们有了额外的信息,所以,我们得到如下0元素的定义:
定义3:0元素
    均匀分布的不确定性最大,没有任何额外信息,因此,定义均匀分布的概率测度函数是0元素;考虑一维的情况,给定区间 [ a , b ] [a,b] [a,b],其中 a < b a\lt b a<b,且都是有限实数,则密度函数 f f f:
f = 1 b − a f=\frac{1}{b-a} f=ba1
     f f f就是事件空间 [ a , b ] [a,b] [a,b]上均匀分布的密度,也就是我们定义的概率测度集合中的0元素。
3、加法的逆元
    一个元素的逆定义为与该元素相加,结果是0,则这两个元素互逆;
定义4:逆元
     ∀ f ∈ C \forall f \in \mathbb{C} fC,如果:
f ⊕ f − 1 = 0 f\oplus f^{-1}=0 ff1=0
    则称 f − 1 f^{-1} f1 f f f的逆元。
    有了逆元的定义,我们来看一个例子:
例1: 求一维区间[a,b]上的概率测度构成的空间,给出 ∀ f ∈ C \forall f \in \mathbb{C} fC,求 f f f的逆元 f − 1 f^{-1} f1
    解:根据加法定义:
f ⊕ f − 1 = f ( x ) f − 1 ( x ) ∫ a b f ( x ) f − 1 ( x ) d x = 1 b − a \begin{aligned} f\oplus f^{-1}=\frac{f(x)f^{-1}(x)}{\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x}=\frac{1}{b-a} \end{aligned} ff1=abf(x)f1(x)dxf(x)f1(x)=ba1
    假设已知 f f f,求 f − 1 f^{-1} f1,那么现在来解方程:
f ( x ) f − 1 ( x ) ∫ a b f ( x ) f − 1 ( x ) d x = 1 b − a f ( x ) f − 1 ( x ) = ( b − a ) ∫ a b f ( x ) f − 1 ( x ) d x \begin{aligned} \frac{f(x)f^{-1}(x)}{\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x}&=\frac{1}{b-a} \\ f(x)f^{-1}(x)&=(b-a)\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x \end{aligned} abf(x)f1(x)dxf(x)f1(x)f(x)f1(x)=ba1=(ba)abf(x)f1(x)dx
因为 ( b − a ) (b-a) (ba)是常数, ∫ a b f ( x ) f − 1 ( x ) d x \int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x abf(x)f1(x)dx是常数,我们令常数c:
c = ( b − a ) ∫ a b f ( x ) f − 1 ( x ) d x c=(b-a)\int_{a}^{b} f(x)f^{-1}(x) \mathrm{d}x c=(ba)abf(x)f1(x)dx
则得到:
f ( x ) f − 1 ( x ) = c f(x)f^{-1}(x)=c f(x)f1(x)=c
显然 f − 1 f^{-1} f1满足初等函数的倒数定义,且下面的倒数是方程的解:
f − 1 = 1 f f^{-1}=\frac{1}{f} f1=f1
    但是,密度函数一定存在倒数吗,我们在定义概率测度集合时,并没有要求概率测度存在倒数(连续情况下,概率测度就是密度函数),那存不存在没有倒数的密度函数呢,答案是肯定的,看看下面的概率密度函数:
f ( x ) = x + 3 2 x 2 , x ∈ [ 0 , 1 ] f(x)=x+\frac{3}{2}x^2,x\in[0,1] f(x)=x+23x2,x[0,1]
     f ( x ) f(x) f(x)满足[0,1]上密度函数的定义,但是 f ( x ) f(x) f(x)的倒数并不存在,因为 f ( x ) f(x) f(x),在 x = 0 x=0 x=0这一点上不存在倒数,那么该怎么做?在我们给定的概率测度集合中,有一些是不存在倒数的,这些不存在倒数的位置我们称之为“狼”,其他的称之为“羊”,现在可以做的是扎起篱笆,把狼赶出去,即不允许密度函数在某一点不存在倒数,但是我们会排除掉很多概率测度;这里为了建立更加一般性的方法,允许“狼”出现,那么我们就可以把自变量分为两拨:

  • “狼们”: L a n g = { x ∣ f ( x ) = 0 } Lang=\{x|f(x)=0\} Lang={xf(x)=0}
  • “羊们”: Y a n g = { x ∣ f ( x ) < > 0 } Yang=\{x|f(x)\lt \gt 0\} Yang={xf(x)<>0}

    由于 f ( x ) f(x) f(x)是密度函数,则必然是可测函数,所以“狼们”和“羊们”这两个集合一定可测,即存在“长度”的。为了更加普适性,我们允许密度函数 f ( x ) f(x) f(x)不连续,那么文中所涉及的积分概念,也将从黎曼积分转向勒贝格积分,在勒贝格积分框架下,我们来看密度函数,应满足:

  • ∀ E ∈ F , ∫ E f ( x ) d x ≥ 0 \forall E \in \mathbb{F},\int\limits_{E}{f(x)}\mathrm{d}x\ge 0 EF,Ef(x)dx0;
  • ∀ E 1 , E 2 ∈ F , 如 果 E 1 ⊂ E 2 , 则 ∫ E 1 f ( x ) d x < ∫ E 2 f ( x ) d x \forall E1,E2 \in \mathbb{F},如果E1\subset E2,则\int\limits_{E1}{f(x)}\mathrm{d}x \lt \int\limits_{E2}{f(x)}\mathrm{d}x E1,E2F,E1E2,E1f(x)dx<E2f(x)dx;
  • ∫ Ω f ( x ) d x = 1 \int\limits_{\Omega}{f(x)}\mathrm{d}x=1 Ωf(x)dx=1
        根据勒贝格积分的定义,可以得到:
    ∫ Ω f ( x ) d x = ∫ L a n g f ( x ) d x + ∫ Y a n g f ( x ) d x = ∫ Y a n g f ( x ) d x = 1 \int\limits_{\Omega}{f(x)}\mathrm{d}x=\int\limits_{Lang}{f(x)}\mathrm{d}x + \int\limits_{Yang}{f(x)}\mathrm{d}x= \int\limits_{Yang}{f(x)}\mathrm{d}x=1 Ωf(x)dx=Langf(x)dx+Yangf(x)dx=Yangf(x)dx=1

    即我们只要求概率在集合 Y a n g Yang Yang上为1,就可以了。同样的,当取倒数时, f ( x ) f(x) f(x)在集合“Lang”上不可求倒数,但是我们的概率不依赖于这个集合,我们就可以直接撇开Lang这个集合,来直接定义 f ( x ) f(x) f(x)的倒数,但是为了保持取倒数后,自变量 x x x的范围保持不变,这里仍然将倒数的定义域延拓到集合“Lang”上,只要保证取倒数在这部分的积分为0即可,那就很简单,只需将这部分的倒数定义为0即可,即我们得到拓展后的倒数概念:
f − 1 ( x ) = { 0 x ∈ L a n g 1 f ( x ) x ∈ Y a n g (3) f^{-1}(x) = \begin{cases} 0 \qquad & x \in Lang \\ \frac{1}{f(x)} \qquad & x \in Yang \end{cases} \tag{3} f1(x)={0f(x)1xLangxYang(3)

    到此,我们已经完成了逆元的初步定义,即如方程(3)中给出的密度函数的倒数。这是不是意味着我们得到了逆元?我们发现 1 f \frac{1}{f} f1不一定是密度函数,即求逆后不是封闭运算,这个是个大问题。解决方案依然是标准化处理,我们采取归一化操作:
f − 1 ( x ) = 1 f ⋅ 1 ∫ a b 1 f ( x ) d x (4) f^{-1}(x)=\frac{1}{f}·\frac{1}{\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x} \tag{4} f1(x)=f1abf(x)1dx1(4)
写成勒贝格测度下的积分形式:
f − 1 ( x ) = 1 f ⋅ 1 ∫ Ω 1 f ( x ) d x (5) f^{-1}(x)=\frac{1}{f}·\frac{1}{\int\limits_{\Omega} \frac{1}{f(x)} \mathrm{d}x} \tag{5} f1(x)=f1Ωf(x)1dx1(5)
    归一化操作,我们引入了倒数的积分,但是,又会出现另一个问题,倒数的积分存在吗,即 ∫ a b 1 f ( x ) d x \int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x abf(x)1dx存在吗?答案是不一定,就比如例1中的密度函数。如果积分不存在,解决方案有两种,一种是我们硬性要求,密度函数的导数存在积分,但是这种方法就不具有普适性了,我们用另一种思路来解决,我们为什么要求积分存在,积分不存在的话,公式(4)是无意义的吗,如果积分即使不存在,公式(4)仍然有意义,且满足密度函数的定义,那么就可以了吗。现在来证明公式(4)是密度函数。
证明:
第一步,证明单调,即:
∀ E 1 , E 2 ∈ F , 如 果 E 1 ⊂ E 2 , 则 ∫ E 1 f − 1 ( x ) d x < ∫ E 2 f − 1 ( x ) d x \forall E1,E2 \in \mathbb{F},如果E1\subset E2,则\int\limits_{E1}{f^{-1}(x)}\mathrm{d}x \lt \int\limits_{E2}{f^{-1}(x)}\mathrm{d}x E1,E2F,E1E2,E1f1(x)dx<E2f1(x)dx
因为 f − 1 ( x ) f^{-1}(x) f1(x)非负,单调性很显然成立;
第二步,证明有界,即证明 ∀ E ∈ F \forall E \in \mathbb{F} EF, ∫ E f − 1 ( x ) d x ∈ [ 0 , 1 ] \int\limits_{E} {f^{-1}(x)} \mathrm{d}x \in [0,1] Ef1(x)dx[0,1]
因为 f − 1 ( x ) f^{-1}(x) f1(x)非负,所以, ∫ E f − 1 ( x ) d x > = 0 \int\limits_{E} {f^{-1}(x)} \mathrm{d}x >=0 Ef1(x)dx>=0;
又因为:
∫ E f − 1 ( x ) d x = ∫ E 1 f ( x ) ⋅ 1 ∫ Ω 1 f ( x ) d x d x = ∫ E 1 f ( x ) d x ∫ Ω 1 f ( x ) d x \begin{aligned} \int\limits_{E} {f^{-1}(x)} \mathrm{d}x &=\int\limits_{E} \frac{1}{f(x)}·\frac{1}{\int\limits_{\Omega} \frac{1}{f(x)} \mathrm{d}x} \mathrm{d}x\\ &=\frac{\int\limits_{E} \frac{1}{f(x)}\mathrm{d}x }{\int\limits_{\Omega} \frac{1}{f(x)} \mathrm{d}x} \end{aligned} Ef1(x)dx=Ef(x)1Ωf(x)1dx1dx=Ωf(x)1dxEf(x)1dx
因为 E ⊆ Ω E \subseteq \Omega EΩ,所以比值不大于1,第二步证明完毕。
整个证明过程不需要倒数的积分存在,或更直接的说,不要求倒数的积分有限。

    最后,我们验证下,按公式(4)给出的逆元满足定义在[a,b]上的概率测度的逆元定义。
证明: 根据加法的定义:
f ⊕ f − 1 = f ⋅ 1 f 1 ∫ a b 1 f ( x ) d x ∫ a b f ⋅ 1 f 1 ∫ a b 1 f ( x ) d x d x = 1 ∫ a b d x = 1 b − a \begin{aligned} f\oplus f^{-1}&=\frac{f· \frac{1}{f} \frac{1}{\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x}}{ \int_{a}^{b} f· \frac{1}{f} \frac{1}{\int_{a}^{b} \frac{1}{f(x)} \mathrm{d}x} \mathrm{d}x} \\ &=\frac{1}{\int_{a}^{b}\mathrm{d}x}\\ &=\frac{1}{b-a} \end{aligned} ff1=abff1abf(x)1dx1dxff1abf(x)1dx1=abdx1=ba1
证毕!
    最终,我们按公式(4)给出了加法的逆元计算。

4、减法
    在实数域,减法定义为被减数和减数的相反数(相反数就是加法的逆元)之间的和,所以,这里我们也把减法转换为加法来定义;
定义5:减法
     ∀ f 1 , f 2 ∈ C \forall f_{_1},f_{_2} \in \mathbb{C} f1,f2C f 1 ⊖ f 2 f_{_1} \ominus f_{_2} f1f2定义为:
f 1 ⊖ f 2 : = f 1 ⊕ f 2 − 1 f_{_1} \ominus f_{_2}:=f_{_1} \oplus f_{_2}^{-1} f1f2:=f1f21
    很显然,因为我们的逆元封闭,加法也封闭,所以,我们的减法也是封闭运算。

总结:

  • 同一个样本空间,可以有不同的概率测度,因此构建了概率测度的集合;
  • 根据信息(不确定性)的大小,定义均匀分布的概率测度是0元素;
  • 对概率测度集合引入加法和加法的逆元,使得元素之间可加减;

其实还可以证明我们构造的空间满足:

  • 加法交换律
  • 加法的结合律

需要解决的问题:不能拓展到无限区间,即均匀分布只在有限区间上有意义,在无限区间上无意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值