PRML笔记 第二章概率分布

2.1二元变量

首先,我们考虑一个二元随机变量x (0,1)。例如, x可能描述了扔硬币的结果, x = 1表示硬币为正面, x = 0表示反面。我们可以假设由一个损坏的硬币,这枚硬币正面朝上的概率未必等于反面的概率。x=1的概率被记为μ,因此

x的概率分布可以写为  :   

这被称为伯努利分布(Bernoulli distribution),其方差与均值为:

假设我们现在有数据集D={x1,x2......xn},似然函数可以写为:

我们可以通过最大似然函数来估计µ的值,或者等价地,最大化对数似然函数。在伯努利分布的情形下,对数似然函数为

我们令该式对μ求导得:μml

我们也可以求解给定数据集规模N的条件下, x = 1的观测出现的数量m的概率布。这被称为二项分布(binomial distribution)根据公式(2.5) 可 以 看 到, 这个概率正比于µ^m*(1 - µ)^N-m。为了得到归一化系数,我们注意到,在N次抛掷中,我们必须把所有获得m个正面朝上的方式都加起来,因此二项分布可以写成
 

其中为C(N,m)在N中选m个的组合。

2.1beta分布

在二项分布中,最大似然解也是数据集里x = 1的观测所占的比例。通过数据集生成先验概率在数据集小的情况下极易产生严重的过拟合现象,为了用贝叶斯的观点看待这个问题,我们需要引入一个关于µ的先验概率分布p(µ)。

为了找到这个先验分布,我们注意到似然函数是某个因子与µx(1 - µ)1-x的乘积的形式。如果我们选择一个正比于µ和(1 - µ)的幂指数的先验概率分布,那么后验概率分布就会有着与先验分布相同的函数形式。这个性质被叫做共轭性(conjugacy)。因此我们选择beta分布作为先验分布:

其中Γ(x)是由公式定义的Gamma函数,上式Beta分布保证了函数的归一化,即:

Beta分布的期望与方差为:

参数a和b经常被称为超参数(hyperparameter),因为它们控制了参数µ的概率分布。不同超参对应的函数图像:

µ的后验概率分布现在可以这样得到:把Beta先验与二项似然函数相乘,然后归一化。只保留依赖于µ的因子,我们看到后验概率分布的形式为

l为反面朝上的个数N-m,我们可以简单地把先验概率中的超参数a和b分别看成x = 1和x = 0的有效观测数。μ月1-μ的指数由m与l增大为m+a-1与l+b-1。

更进一步,当有新的数据到来时,后验概率可以看成新的先验概率,因此这个过程可以序列化进行。

如果我们的⽬标是尽可能好地预测下⼀次试验的输出,那么我们必须估计给定观测数据集D的情况下, x的预测分布。根据概率的加和规则和乘积规则,这个预测分布的形式为先验概率p(μ|D)  似然函数 p(x=1|D)=μ

由上式我们可以得到

我们可以看到,当观测的数量增加时,后验分布的图像变得更尖了。μ随着数据集的增加作为取值的概率同时也增加了。随着我们观测到越来越多的数据,后验概率表⽰的不确定性将会持续下降。
 

2.2多项式变量

对于多项式变量我们可以用一个k维向量x来表示。可以表示为K=6的状态变量。观测状态为x3=1。假设 xk=1xk=1 的概率为 μkμk,则 xx 的分布为:

  

上式可以被看成伯努利分布对于多个输出的一个推广。很容易看出,这个分布是归一化的,并且:

现在考虑一个有N个独立观测值x1; .... xN的数据集D。对应的似然函数的形式为

其中表示xk在统计中出现的次数。

我们要进行最大似然估计,要最大化对数似然函数即 lnp( D | μ ),并且要限制µk的和必须等于1。这可以通过拉格朗日乘数λ实现,即最大化:

上式对μk求导等于0,可得将其代入限制条件中解得λ=-N,最大似然解为:

m1..... mK在参数µ和观测总数N条件下的联合分布。

归一化系数是把N个物体分成 大小为m1;..... mK的K组的方案总数,定义为

2.2.1狄利克雷分布

与二元分布类似,我们要给多元分布引入一个先验分布。考虑多元分布的形式,为了满足共轭性,先验分布应该满足这样的形式:

其中 ,α=(α1,…,αK)T   是先验分布的参数。

事实上,μkμk 的分布是一个 K−1K−1 的单纯形。

归一化这个分布,我们可以得到

作为先验

其中我们用似然函数 乘以 先验 就可以得到μk的后验分布:

 

由共轭性,我们可以得到后验分布也是个狄利克雷分布:

其中 m=(m1,…,mK)T,与二项分布类似,我们也可以将 akak 看成 xk=1xk=1 的一个有效观测次数。二项分布可以看出是多项分布 K=2K=2 的特殊情况。

2.3高斯分布

高斯分布,又叫正态分布,是连续变量经常使用的一个分布模型,一维的高斯分布如下:

其中µ是均值, σ2是方差。对于D维向量x,多元高斯分布的形式为

其中µ是一个D维均值向量, Σ是一个D × D的协方差矩阵, jΣj是Σ的行列式。

验证高斯分布

考虑高斯分布的结构中与x有关的二次型:

其中Δ叫做μ和x 的马氏距离(Mahalanobis distance),当 Σ 是单位矩阵的时候为欧氏距离。在Δ^2相等的地方,高斯分布的概率密度也相等

首先,我们注意到矩阵Σ可以取为对称矩阵,而不失一般性。这是因为任何非对称项都会从指数中消失。现在考虑协方差矩阵的特征向量方程:由于Σ为实对称矩阵,因此它的特征值也是实数。并且特征向量可以被选成单位正交的,即其中 :

                                                                    

表示单位矩阵的第i j个元素。协方差矩阵Σ可以表示成特征向量的展开的形式:

                                                        

同样Σ的逆矩阵可以表示为

                                                            

将其代入到Δ^2的式子中二次型可以变换为:

                

其中我们定义向量y = (y1…… yD)T有其中U是一个矩阵,它的行向量为特征向量  由特征向量的单位正交性我们可以看出U是一个正交orthogonal矩阵,即UU'=I,其中I为单位矩阵。

二次型在为常数的曲面上也为常数,因此高斯密度也为常数。

那么这些曲面表示椭球面,椭球中心位于µ(方向上的均值),椭球的轴的方向沿着ui(协方差军阵的特征向量),沿着轴向的缩放因为λ(协方差矩阵的特征值)

从x坐标系到y坐标系,我们有一个Jacobian矩阵J,它的元素为

其中Uij为矩阵UT的转置对应的元素,我们可以看出Jacobian矩阵行列式的平方为:

                                        

另一方面,矩阵 Σ 的行列式可以成特征值的乘积,因此:

                                          

因此我们可以将多维高斯分布转换为yj坐标系的形式(替换二次型与Σ 行列式):

                          

这是D个独立一元高斯分布的乘积。特征向量因此定义了一个新的旋转、平移的坐标系,在这个坐标系中联合概率分布可以分解成独立分布的乘积。在y坐标系中,概率分布的积分为

                                  

高斯分布的均值与协方差

待续............


 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值