贝叶斯线性回归（Bayesian Linear Regression）

最新推荐文章于 2025-03-19 14:00:00 发布

huangjx36

最新推荐文章于 2025-03-19 14:00:00 发布

阅读量7.6k

点赞数 3

分类专栏：机器学习文章标签：贝叶斯线性回归

机器学习专栏收录该内容

13 篇文章

订阅专栏

关于参数估计

　　　在很多机器学习或数据挖掘的问题中，我们面对的只有数据，但数据中潜在的概率密度函数我们是不知道的，我们需要用数据将概率密度分布估计出来。想要确定数据对应的概率密度分布，我们需要确定两个东西：①概率密度函数的形式；②概率密度函数的参数。
　　　一般情况下，都是先假定数据是具有某种概率分布的，然后再通过数据计算出这些数据对应这个概率分布所对应的参数是什么。而常用的参数估计方法有：极大似然估计、最大后验估计、贝叶斯估计、最大熵估计、混合模型估计。它们之间是递进关系的，想要理解后一个参数估计方法，最好对前一个参数估计有足够的理解。因此想要理解贝叶斯线性回归，或者叫做贝叶斯参数估计，就必须对极大似然估计、最大后验估计有清楚的理解。

极大似然估计

　　　首先，以一个分类问题来说明一般参数估计面对的数据形式。考虑一个M类的问题，特征向量服从 $p(x|w_i), i=1, 2, ... , M$ 分布。这是现实情况中最常见的一种数据存在形式，数据集合X是由M个类别的数据子集 $X_m，m=1，2，...，M$ 组成的，第m个类别的数据子集 $X_m$ 对应的概率密度函数是 $p(x|w_m)$ 。
　　　前面已经介绍过，想要确定数据的概率分布，需要知道概率密度函数的形式和参数，这里首先做一个基本的假设：概率分布的形式已知，比如，假设每个类别的数据都满足高斯分布，那么似然函数就可以用参数 $θ_i$ 的形式表示，这里 $θ_i$ 表示的是类别 $i$ 对应的参数向量。如果是高斯分布，则有两个参数： $μ_i$ 和 $σ_i^2$ ，也就是说 $θ_i=(μ_i, σ_i^2)$ 。
　　　为了强调概率分布 $p(x|w_i)$ 和 $θ_i$ 有关，可以将对应的概率密度函数记为 $p(x|w_i; θ_i)$ ，这里的极大似然估计对应于一个类条件概率密度函数。所谓“类条件”其实就是以类别为条件的概率密度函数。
　　　从上面的描述可以知道，利用每一个类 $X_i$ 中已知的特征向量集合，可以估计出其对应的参数 $θ_i$ 。进一步假设每一个类中的数据不影响其它类别的数据的参数估计，那么上面个M个类别的参数估计就可以用下面这个统一的模型独立的解决。
　　　设 $x_1, x_2, ... , x_N$ 是从概率密度函数 $p(x; θ)$ 中随机抽取的样本，那么就可以得到联合概率密度函数 $p(X; θ)$ ，其中 $X=\{x_1,x_2, ... , x_N\}$ 是样本集合。假设不同的样本之间具有统计独立性，那么：

p (X; θ) \equiv p (x 1, x 2, . . ., x N; θ) = \prod k = 1 N p (x k; θ)

$p(X;θ) \equiv p(x_1,x_2,...,x_N;θ)=\prod_{k=1}^N p(x_k;θ)$ 注意：这里的

p(xk;θ) $p(x_k;θ)$ 本来的写法是

p(x|wi;θi) $p(x|w_i;θ_i)$ ，是一个类条件概率密度函数，只是因为这里是一个统一的模型，所以可以将

wi $w_i$ 省略。
　　　此时，就可以使用最大似然估计（Maximum Likelihood，ML）来估计参数

θ $θ$ 了：

θ^M L = a r g max θ \prod k = 1 N p (x k; θ)

$\hat θ_{ML}=arg \max_{θ} \prod_{k=1}^N p(x_k;θ)$ 为了得到最大值，

θ^ML $\hat θ_{ML}$ 必须满足的必要条件是，似然函数对

θ $θ$ 的梯度必须为0，即：

\partial \prod N k = 1 p ( x k ; θ ) \partial θ = 0

$\frac{\partial\prod_{k=1}^N p(x_k;θ)}{\partial θ}=0$ 但是，一般采用的是似然函数的对数形式

L (θ) \equiv l n \prod k = 1 N p (x k; θ)

$L(θ) \equiv ln\prod_{k=1}^N p(x_k;θ)$

\partial L ( θ ) \partial θ = \sum k = 1 N \partial l n p ( x k ; θ ) \partial θ = \sum k = 1 N 1 p ( x k ; θ ) \partial p ( x k ; θ ) \partial θ = 0

$\frac{\partial L(θ)}{\partial θ} = \sum_{k=1}^{N}\frac{\partial lnp(x_k;θ)}{\partial θ} = \sum_{k=1}^{N}\frac{1}{p(x_k;θ)}\frac{\partial p(x_k;θ)}{\partial θ} = 0$ 需要注意的是：极大似然估计对应于似然函数的峰值。
　　　极大似然估计有两个非常重要的性质：渐进无偏和渐进一致性，有了这两个性质，使得极大似然估计成为了非常简单而且使用的参数估计方法。所谓渐进无偏就是说，经过多次计算，对参数估计的期望值等于其真实值；而所谓渐进一致就是当数据样本足够大时，参数能够收敛于真实值，而不是在真实值范围波动。

最大后验估计（MAP）

　　　在最大似然估计（ML）中， $θ$ 是被看做是未知数，相当于一个自变量，从所有可能的取值中计算出能使得似然函数最大的取值。所以，最大似然估计是 $θ$ 的函数。
　　　从最大后验估计开始，我们将参数 $θ$ 看成一个因变量，在已知样本集 $\{x_1,x_2,...,x_N\}$ 的条件下，估计参数 $θ$ 。这里一定要注意的是，在最大似然估计中，参数 $θ$ 是一个自变量，最大似然函数是 $θ$ 的函数，最大似然函数里 $θ$ 没有概率意义，计算的是是哪一个 $θ$ 能够使得似然函数表示的先验概率最大。而在最大后验估计中，我们需要通过已知样本集求未知 $θ$ 的概率， $θ$ 是有概率意义的， $θ$ 有自己的分布。也就是说，最大后验估计需要计算的是 $p(θ|X)$ 。
　　　根据贝叶斯理论：

p (θ | X) = p ( θ ) p ( X | θ ) p ( X )

$p(θ|X)=\frac{p(θ)p(X|θ)}{p(X)}$ 这是参数

θ $θ$ 关于已有数据集

X $X$ 的后验概率。要使得这个后验概率最大，和极大似然估计一样，这里需要对后验概率函数求导。由于分子中的

p(X) $p(X)$ 相对于

θ $θ$ 是独立的，可以直接忽略掉

p(X) $p(X)$ 。

θ^M A P = a r g max θ p (θ | X) = a r g max θ p (θ) p (X | θ)

$\hat θ_{MAP} = arg \max_{θ} p(θ|X) = arg \max_{θ} p(θ)p(X|θ)$ 为了得到参数

θ $θ$ ，和ML一样，需要对

p(θ|X) $p(θ|X)$ 求梯度，并使梯度等于0：

p ( θ | X ) \partial θ = p ( θ ) p ( X | θ ) \partial θ = 0

$\frac{p(θ|X)}{\partial θ} = \frac{p(θ)p(X|θ)}{\partial θ} = 0$ 注意：这里

p(X|θ) $p(X|θ)$ 和极大似然估计中的似然函数

p(X;θ) $p(X;θ)$ 是一样的，只是记法不一样，MAP和ML的区别是：MAP是ML的基础上加上了

p(θ) $p(θ)$ 。这里需要说明的是，虽然从公式上

MAP=ML∗p(θ) $MAP=ML*p(θ)$ ，但是这两种算法有本质的区别，ML将

θ $θ$ 视为一个确定未知的值，而MAP则将

θ $θ$ 视为一个随机变量。
　　　在MAP中，

p(θ) $p(θ)$ 称为

θ $θ$ 的先验知识，假设其服从均匀分布，即对于所有

θ $θ$ 的取值，

p(θ) $p(θ)$ 都是同一个常量，这样的话，MAP和ML会得到相同的结果。另一方面，如果

p(θ) $p(θ)$ 的方差非常小，MAP和ML的结果自然也会非常相似。

贝叶斯估计

贝叶斯估计的核心问题

　　　为了防止标号混淆，这里定义已有的样本集合为 $D$ ，为不是之前的 $X$ 。样本集合 $D$ 中的样本都是从一个固定但是未知的概率密度函数 $p(x)$ 中独立抽取出来的，要求根据这些样本估计 $x$ 的概率分布，记为 $p(x|D)$ ，并且使得 $p(x|D)$ 尽量地接近 $p(x)$ ，这就是贝叶斯估计的核心问题。

贝叶斯估计的第一个重要元素

　　　虽然 $p(x)$ 是未知的，但是前面提到过，一个密度分布的两个要素为：形式和参数。我们可以假设 $p(x)$ 的形式已知，但是参数 $θ$ 的取值未知。这样，就有了贝叶斯估计的第一个重要元素 $p(x|θ)$ ，这是一个条件概率密度函数，准确的说，是一个类条件概率密度函数。强调一下： $p(x|θ)$ 的形式是已知的，只是参数 $θ$ 的取值未知。由于这里的 $x$ 可以看成一个测试样本，所以这个条件密度函数，从本质上讲，是 $θ$ 在点 $x$ 处的似然估计。

贝叶斯估计的第二个重要的元素

　　　由于参数 $θ$ 的取值未知，而且，我们将 $θ$ 看成是一个随机变量，那么，在观察到具体的训练样本之前，关于 $θ$ 的全部知识，可以用一个先验概率密度函数 $p(θ)$ 表示。对于训练样本的观察，我们能够把这个先验概率密度转化成为后验概率密度函数 $p(θ|D)$ ，根据后验概率密度的相关论述我们知道，我们希望 $p(θ|D)$ 在 $θ$ 的真实值附近有非常显著的尖峰。这里的后验概率密度，就是贝叶斯估计的第二个主要元素。

解决贝叶斯核心问题

　　　现在将贝叶斯估计的核心问题 $p(x|D)$ ，和贝叶斯估计的两个重要元素： $p(x|θ)$ 、 $p(θ|D)$ 联系起来：

p (x | D) = \int p (x, θ | D) d θ = \int p (x | θ, D) p (θ | D) d θ

$p(x|D) = \int p(x, θ|D)dθ = \int p(x|θ,D)p(θ|D)dθ$ 上面的式子中，

x $x$ 是测试样本，

D $D$ 是训练集，

x $x$ 和

D $D$ 的选取是独立进行的，因此，

p(x|θ,D) $p(x|θ,D)$ 可以写成

p(x|θ) $p(x|θ)$ 。所以，贝叶斯估计的核心问题就是下面这个公式：

p (x | D) = \int p (x | θ) p (θ | D) d θ

$p(x|D) = \int p(x|θ)p(θ|D)dθ$ 必须要理解的是，这里的

p(x|θ) $p(x|θ)$ 是

θ $θ$ 关于测试样本

x $x$ 这一点的似然估计，而

p(θ|D) $p(θ|D)$ 则是

θ $θ$ 在已有样本集合的后验概率。所以必须先理解什么是极大似然估计和最大后验概率估计。其中，后验概率

p(θ|D) $p(θ|D)$ 为：

p (θ | D) = p ( D | θ ) p ( θ ) p ( D ) = p ( D | θ ) p ( θ ) \int p ( D | θ ) p ( θ ) d θ

$p(θ|D) = \frac{p(D|θ)p(θ)}{p(D)} = \frac{p(D|θ)p(θ)}{\int p(D|θ)p(θ)dθ}$

p (D | θ) = \prod k = 1 N p (x k | θ)

$p(D|θ)=\prod_{k=1}^{N}p(x_k|θ)$
　　　上面这个式子就是贝叶斯估计最核心的公式，它把类条件概率密度

p(x|D) $p(x|D)$ 和未知参数向量

θ $θ$ 的后验概率密度

p(θ|D) $p(θ|D)$ 联系在了一起。如果后验概率密度

p(θ|D) $p(θ|D)$ 在某一个值

θ^ $\hat θ$ 附近形成显著的尖峰，那么就有

p(x|D)≈p(x|θ^) $p(x|D) \approx p(x|\hat θ)$ ，就是说，可以用估计值

θ^ $\hat θ$ 近似代替真实值所得的结果。

贝叶斯估计的增量学习

　　　为了明确的表示样本集合 $D$ 中有n个样本，这里采用记号： $D^n = \{x_1, x_2, ... , x_n\}$ 。根据前一个公式，在 $n > 1$ 的情况下有：

p (D n | θ) = p (x n | θ) p (D n - 1 | θ)

$p(D^n|θ) = p(x_n|θ)p(D^{n-1}|θ)$ 这样的话就能够容易地得到：

p (θ | D n) = p ( x n | θ ) p ( D n - 1 | θ ) p ( θ ) \int p ( x n | θ ) p ( D n - 1 | θ ) p ( θ ) d θ = p ( x n | θ ) p ( θ | D n - 1 ) \int p ( x n | θ ) p ( θ | D n - 1 ) d θ

$p(θ|D^n) = \frac{p(x_n|θ)p(D^{n-1}|θ)p(θ)}{\int p(x_n|θ)p(D^{n-1}|θ)p(θ)dθ} = \frac {p(x_n|θ)p(θ|D^{n-1})}{\int p(x_n|θ)p(θ|D^{n-1})dθ}$ 当没有观测样本时，定义

p(θ|D0)=p(θ) $p(θ|D^0)=p(θ)$ ，为参数

θ $θ$ 的初始估计。然后让样本集合依次进入上述公式，就可以得到一系列的概率密度函数：

p(θ|D0) $p(θ|D^0)$ 、

p(θ|D1) $p(θ|D^1)$ 、

p(θ|D2) $p(θ|D^2)$ 、 … 、

p(θ|Dn) $p(θ|D^n)$ ，这一过程称为参数估计贝叶斯递归法，也叫贝叶斯估计的增量学习。这是一个在线学习算法，它和随机梯度下降法有很多相似之处。

贝叶斯线性回归

　　　贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合问题，而且它对数据样本的利用率是100%，仅仅使用训练样本就可以有效而准确地确定模型的复杂度。
　　　这里面对的模型是线性回归模型，线性回归模型是一组输入变量 $x$ 的基函数的线性组合，在数学上的形式如下：

y (x, w) = w 0 + \sum j = 1 M w j ϕ j (x)

$y(x, w) = w_0 + \sum_{j=1}^{M}w_j\phi_j(x)$ 这里

ϕj(x) $\phi_j(x)$ 就是前面提到的基函数，总共的基函数数目为

M $M$ 个，如果定义

ϕ0(x)=1 $\phi_0(x)=1$ 的话，上面的式子就可以简单地表示为：

y (x, w) = \sum j = 0 M w j ϕ j (x) = w T ϕ (x)

$y(x, w)=\sum_{j=0}^{M}w_j\phi_j(x)=w^T\phi(x)$

w = (w 0, w 1, w 2, . . ., w M)

$w = (w_0, w_1, w_2, ... , w_M)$

ϕ = (ϕ 0, ϕ 1, ϕ 2, . . ., ϕ M)

$\phi = (\phi_0, \phi_1, \phi_2, ... , \phi_M)$ 则线性模型的概率表示如下：

p (t | x, w, β) = N (t | y (x, w), β - 1 I)

$p(t | x, w, \beta) = N(t | y(x, w), \beta^{-1}I)$ 假设参数

w $w$ 满足高斯分布，这是一个先验分布：

p (w) = N (w | 0, α - 1 I)

$p(w)=N(w|0, \alpha^{-1}I)$ 一般来说，我们称

p(w) $p(w)$ 为共轭先验（conjugate prior）。这里

t $t$ 是

x $x$ 对应的目标输出，

β−1 $\beta^{-1}$ 和

α−1 $\alpha^{-1}$ 分别对应于样本集合和

w $w$ 的高斯分布的方差，

w $w$ 是参数。
　　　那么线性模型的对数后验概率函数为：

l n p (θ | D) = l n p (w | T) = - β 2 \sum n = 1 N {y (x n, w) - t n} 2 + α 2 w T w + c o n s t

$lnp(\theta|D)=lnp(w|T)=-\frac{\beta}{2}\sum_{n=1}^{N}\{y(x_n, w)-t_n\}^{2} + \frac{\alpha}{2}w^Tw + const$ 这里

T $T$ 是数据样本的目标值向量，

T={t1,t2,...,tn} $T = \{t_1, t_2, ... , t_n\}$ ，const是和参数

w $w$ 无关的量。

贝叶斯线性回归的学习过程

　　　根据前面关于贝叶斯估计的增量学习可以很容易得到下面这个式子，这个就是贝叶斯学习过程：在前一个训练集合 $D^{n-1}$ 的后验概率 $p(θ|D^{n-1})$ 上，乘以新的测试样本点 $x_n$ 的似然估计，得到新的集合 $D^n$ 的后验概率 $p(\theta|D^n)$ ，这样相当于 $p(\theta|D^{n-1})$ 成为了 $p(\theta|D^n)$ 的先验概率分布：

p (θ | D n) \propto p (x n | θ) p (θ | D n - 1)

$p(\theta|D^n)∝p(x_n|\theta)p(\theta|D^{n-1})$

贝叶斯回归的优缺点

优点：
　　　①贝叶斯回归对数据有自适应能力，可以重复的利用实验数据，并防止过拟合。
　　　②贝叶斯回归可以在估计过程中引入正则项。
缺点：
　　　①贝叶斯回归的学习过程开销太大。

自己的理解

①由最大似然估计的形式可以知道，使用ML拟合数据很可能产生过拟合的情况。
②同样地，由于最大后验估计通过使用贝叶斯理论使得MAP可以通过ML来计算。这里，使用最大后验估计对数据进行拟合就会出现两种情况：当参数向量是一个均匀分布的时候，那么MAP跟ML几乎是一样的，因此会产生过拟合的情况；第二就是，当参数向量具有其它别的概率分布的时候，我们就可以通过假定参数向量符合某种分布，如高斯分布，从而对数据的拟合进行平滑。需要理解的是，数据的概率分布和参数向量的概率分布是不一样的，我们可以假定数据具有某种概率分布，这种概率分布通过一些参数确定该分布的具体形式。而这些参数的取值可能具有某种概率分布。
③所谓的贝叶斯线性回归其实就是使用了线性模型背后的概率模型，通过概率模型确定线性模型的回归系数。而在使用概率模型确定回归系数的过程中就用到了MAP，所以贝叶斯线性回归能够防止过拟合，就是因为它的计算使用了MAP。