(码字真tm累.....)
前言
本章讲了几个基本的概率模型,贝叶斯理论的终极目标就是给出各个可能性大概率分布,那么首先就要假设一下数据的分布是符合哪种模型。本章给了一些常用的例子,二项分布,多项分布,高斯分布。这些分布的优点在于他们有一些不错的性质性质,比如导数简单、参数积分方便等,参数存在可以简化计算的先验分布形式(也就是书中讲的conjugate prior)。作者讲这章的前几个模型的思路是,给出模型,然后从贝叶斯极大似然估计的方式给出参数的最优化估计,之后介绍贝叶斯。之后作者讲了数值估算概率密度函数的方法。
2.1 二元分布
设概率空间只包含两个状态
对数似然函数是
从极大似然法(ML)的角度,最适合的参数
得到
从贝叶斯定理的角度来看,我们要得到的结果应该是参数的后验概率,即
带入到贝叶斯定理中,归一化得到
可以看到,在数据量增大以后,
第二个等式的第一项是后验概率的方差的均值,如果数据的生成模型是确定的,那么数据的方差应该是很低的,所以这一项就可以认为和某一组数据
最后,贝叶斯理论要求给出数据的预测
可以看到,结果很直观,参数
最后作者讲了二项分布,也就是说数据
2.2 Multinomilal Variables 多元分布
这一节和上一节很像,只不过数据从两种变成了
矢量
可以算出参数
对于数据只是各种类出现次数时
类似二元分布,多元分布的参数
于是后验概率分布为
2.3 Gaussian Distribution 高斯分布
高斯分布能够用到的就是条件概率分布和它的marginal概率分布。(marginalize的意思从英文是边界化,但是这里其实就是对一条坐标积分...)
设高斯分布
二次型的系数矩阵
我们先求条件分布算起,然后再算Marginal分布。
2.3.1 条件概率分布
将高斯分布的二次型中
一次项系数为
根据分块矩阵的逆的公式
可以得到
带入得到
2.3.2 Marginal 概率分布
Marginalize的过程就是对
的积分会产生常数项,把它加到原来
化简后得到
这里的计算比较复杂,其实有更加简单的方法,考虑分布
可以发现将
2.3.3 高斯分布的贝叶斯定理
计算中常常遇到对参数的初分布求平均值的情况,而最简单的情况就是参数
根据第一章中的知识,我们可以做两件事。一个是根据后验分布
求后验概率
先写出联合分布的高斯函数的二次型
关于变量
于是将上面的结果代入到前两节的计算式中得到marginal分布为
条件概率算出的后验分布为
2.3.4 高斯分布中的参数极大似然估计
这节需要掌握的一个对矩阵元求导的法则(在附录中),下面就详细的总结一下吧,以前还真没学过。设
如果令
于是
下面求
而我们知道行列式
所以
于是
另外某个标量函数对矩阵求导,得到是一个矩阵,元素是对某矩阵元求导的值,即
根据分布求导法则,和迹的乘法交换性还可以得到
根据之前得到的式子,还有
回到正题,假定某个随机变量的分布是高斯分布
对其参数
这里直接写结果
还有一个比较能猜测到的结果,和一元时一样
2.3.5 sequential estimation 当数据是有次序的进入时,该如何做估计
没办法,英文很直观,中文很繁琐。这节讲的就是如何把全部数据一起操作的计算方法(batch algorithm)转变成数据一个一个进来(sequential),每进来一个更新一次数据的方法(on-line algorithm)。以ML给出的均值
本节讲了一个一般性的定理,叫Robbins-Monro algorithm。它讲的是,假设我有一个联合分布
那么迭代公式
在
在
这里
于是迭代公式就是
令
PS:这里有一个问题,若令
2.3.6 Bayesian Inference for Gaussian
本节其实讲的就是一元高斯分布时,参数的conjugate prior的形式,首先我们看似然函数的函数形式
关于参数
关于参数
和起来的形式也是不能改变的
能改变的只有参数
先把
注意到对
这里gamma分布是
系数
对于多元高斯分布也可以做类似的类比,设
于是令参数的先验分布为
各个系数的后验分布更新方式为
对
积分之后剩下的部份是
可以看出
2.3.7 Student's Distribution 学生分布
本节的内容就是认为对高斯分布
令
系数
书中提到,学生分布因为考虑到了所有的方差
根据上文所叙述的各个参数的统计意义,也可以给出高维空间中的学生分布
需要注意的是虽然
2.3.8 Periodic Variables 圆上的类高斯分布
具有周期性的定义域上的高斯分布可以类比为以下分布(von Miles distribution)
书中也给出了这种分布下的极大似然法,不展开了。
2.3.9 Mixtures of Gaussian 混合高斯分布
第五章神经网络的位置讲了混合高斯分布为输出的网络该如何优化,但是那个不是对概率
第九章讲Expectation maximization的时候会仔细讲,然而现在(2019.1.31)我还没看到那里。
2.4 Exponential Family 指数函数族
之前书中讲过的所有概率分布模型都可以归纳为指数族分布(exponential family)
这里
2.4.1 指数族的一般性极大似然法
本节给出的是指数族分布函数关于参数的极大似然法的一般处理方式。从上一节我们至到
于是
表示代表的统计意义就如其所示。合理的参数选择应该让
似然函数取极值的条件是其对参数的导数为零,即
另外,习题中还给出了一个常用的结果,可以看到指数族函数的优势在于它可以很方便的给出数据的均值和方差。
2.4.2 指数族函数的conjugate prior的一般性公式
根据上一小节似然函数的形式,不难推测出conjugate prior的形式为
书中自然的给出了后验分布的形式
2.4.3 不包含信息的先验概率分布
这一节讲了几个尽量让prior distribution不包含信息(每一个参数条件均等价)的方法,但是实际上这一是徒劳的,只要引入先验分布,因为归一化的要求,一定会对参数有所偏向。
2.5 非参数化方法(写到这里有些烦了,这一节可能没那么仔细)
这一节实在是没讲什么。首先讲了用histogram的方法(也就是直方图)来近似概率
2.5.1 kernal density estimator 核函数估算概率密度
本节讲了用kernal的方法来估算概率,使得得到的概率分布是连续函数。
这个算法的缺点就是
2.5.2 近邻算法
书中提到密度的估算是
近邻算法考虑的是分类问题,假设有
于是后验概率为
近邻算法认为