Deep learning book chapter05 – notes
5.6 Bayesian Statistics
频率派认为θ的真实值是确定而未知的:他们的方法是基于对一个单一变量θ的点估计而后续的工作都是基于那个单一的估计进行的。
而贝叶斯派则将θ的所有可能取值考虑在内,然后做预测。(他们认为θ数据集本身是可以直接观察的,所以并不是随机的,而相对的,参数值的真实值却是未知的或者不确定的。因此将θ表示为一个随机变量!)在观察数据之前,我们通常会通过一个先验概率分布p(θ)来给出我们关于θ的知识。对于不同的样本,面向不同的应用我们可能会选择不同的先验分布:比如可能的均匀分布,或者是有着较小的协方差的,或者是一个接近于常量的函数。
与极大似然估计不同的是:极大似然法使用的是一个点估计来进行预测;而贝叶斯估计则使用的是一个完整的θ参数的分布;
p(x(m+1)|x(1),…,x(m))=∫p(x(m+1)|θ)p(θ)|x(1),…,x(m))dθ
以上表达式的含义就是:在已知样本数据的条件下,预测样本m+1的结果是根据θ的积分来得;其中首先由已知样本1~m推出θ的条件分布,然后在相应的条件分布下求出预测样本m+1的条件期望(对每一个θ的取值m+1的概率,相应的积分,就得到了m+1的条件概率)。
如果在观察完所有的样本数据之后θ的值还是不确定的,那么这种不确定性将会被带入到所有的预测值中去。
频率派的最大似然估计,根据点估计的方差来对新的样本的适应性进行评估。而贝叶斯方法,则是将新的样本数据将入到积分当中直接进行计算,从而也避免的上溢的问题。
贝叶斯方法使用积分作为一种对概率法则的应用;而频率机制则是将样本数据集的所有信息都放入一个点估计当中,然后基于这个点估计进行评估。
贝叶斯方法对先验概率分布的选择存在着主观因素:因而对最终的预测也存在着影响。
在极大似然法那一节中已经证明了:极大似然法与MSE(Mean Squared Error)均方误差法得到的θ结果是一致的。
下面给出了一个贝叶斯应用实例:贝叶斯线性回归
单个样本参数向量对标量y的映射:
如果给定杨本数据集 (X(train),y(train)) 那么就有:
那么如果使用一个高斯条件分布来表示的话则有:
我们这类为了方便计算:令样本的协方差矩阵为I。
对于一个实值参数θ,我们通常使用一个高斯分布来表示,这里的参数是:
w
这样有了参数的先验估计之后就可以得到其后验分布:
以上式5.74中:我们有
其中:我们假设参数w与样本X相互独立;那么显然p(w|X) = p(w);然后1/p(y|X) 为已知系数,也就是p(y|X)的值是根据样本来的,是确定的,但是因为它与我们的目标w无关,所以不关心。
我们可以定义:
Λm=(XTX+Λ−10)−1
并且:
μm=Λm(XTy+Λ−10μ0)
从而可以有:
那么在之前推导求线性回归的MSE最优解时,我们最终得到:
将此式与式5.78对比可以得知:
如果我们将
μ0
设为0,并且令
Λ0=1αI
,那么
μm
将给出一致的w的估计与频率派的
J(w)=MSEw+λwtw
也就是权重衰退(weight decay)方法得到的结果是一致的!