回归的线性模型（2）

最新推荐文章于 2024-07-18 00:00:00 发布

MTM00

最新推荐文章于 2024-07-18 00:00:00 发布

阅读量328

点赞数

分类专栏： PRML 机器学习文章标签： PRML 机器学习

本文链接：https://blog.csdn.net/MTM00/article/details/63262726

版权

PRML 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

Linear Models for Regression（2）

回归的线性模型（2）

其实越往后面越发现自己之前认识的片面性，但是对我这种记性不好的人来说还是要写一点东西总结一下，以便之后翻查，审视自己当初的思路有没有错误。不当之处还请各位及时批评。

接前文

前文已经看到，采用最大似然方法对目标变量的分布进行点估计时，容易产生过拟合现象，通过引入分布参数的先验概率来引入正则化项，来限制模型复杂度，消除过拟合。

那么为什么限制模型复杂度，即让我们选择较为简单的模型是正确的做法呢？

为了寻找背后直觉，翻看了一些经典

MLAPP上面有这样一个例子——猜数字规则，通过已知数字来猜测产生这组数字的规则是什么。

例如，先给了我们一个16，我们脑海中会浮现以下一些规则：
* 偶数
* 2的n次幂
* 个位带6的数字
* 十位是1的数字
* 4的n次幂
…

当再给我们4,64,2时，我们就会肯定的说：是2的n次幂。

我们为什么不会说：是2的n次幂，除了32
…

我们得到的样本数据是有噪声的，当完美的拟合了样本数据之后，我们也完美的拟合了这些随机噪声。

PRML第三章后半段还涉及了对模型证据和超参选择的讨论，只看了计算过程，理解不深，后面慢慢理解后再添加这部分内容

还是前文的假设：

考虑数据集 $X=\{\mathbf{x}_1,...,\mathbf{x}_N\}^T$ ，对应目标值 $\mathbf{t}=\{t_1,...,t_n\}$
$\varPhi(\mathbf{x}_n)$ 是一个函数，输入是数据集中某一向量 $\mathbf{x}_n$ 输出是 $\mathbf{x}_n$ 在我们选择的基函数的映射下，形成的一个新向量（我理解就是换一组更好的基）。所有样本经过 $\varPhi$ 函数的映射后，形成了我们后面用的特征矩阵 $\Phi$ 。

之前我们的方法是直接用 $y(\mathbf{x},\mathbf{w})=\mathbf{w}^T\Phi+\epsilon$ 拟合目标变量分布

其中 $\epsilon$ 是我们假设的一个均值为0，精度为 $\beta$ 的高斯噪声

p (ϵ) =  (ϵ | 0, β - 1)

$p(\epsilon) = \mathcal{N}(\epsilon\ |\ 0,\beta^{-1})$

然后， $y(\mathbf{x},\mathbf{w})$ 自然也就变成了一个高斯分布

p (t | x, w, β) =  (t | y (x, w), β - 1)

$p(t\ |\ \mathbf{x},\mathbf{w},\beta)=\mathcal{N}(t\ |\ y(\mathbf{x},\mathbf{w}),\beta^{-1})$

前文我们的方法是通过估计 $\mathbf{w}$ 的后验分布，选出使后验分布最大化的 $\mathbf{w}$ 来当作我们预测分布的参数，其实就是对 $\mathbf{w}$ 进行点估计

p (w | ) \propto p ( | w) p (w)

$p(\mathbf{w}\ |\ \mathcal{D})\propto p(\mathcal{D}\ |\ \mathbf{w})p(\mathbf{w})$

贝叶斯方法说我不进行点估计，我不是估计出了 $\mathbf{w}$ 的后验分布了吗，我再根据这个后验分布去估计目标变量 $t$ 的分布

p (t | ) = \int p (t | w, ) p (w | ) d w

$p(t\ |\ \mathcal{D})=\int p(t\ |\ \mathbf{w},\mathcal{D})p(\mathbf{w}\ |\ \mathcal{D})d\mathbf{w}$

（＊注意：这几个公式一定要看清里面的参数是标量还是向量，不然容易搞混公式意义）

先来看对 $\mathbf{w}$ 的分布的估计
观察公式

p (w | ) \propto p ( | w) p (w)

$p(\mathbf{w}\ |\ \mathcal{D})\propto p(\mathcal{D}\ |\ \mathbf{w})p(\mathbf{w})$
更符合假设一点的写法：

p (w | X, t, β) \propto p (t | w, X, β) p (w)

$p(\mathbf{w}\ |\ X,\mathbf{t},\beta)\propto p(\mathbf{t}\ |\ \mathbf{w},X,\beta)p(\mathbf{w})$

其中的似然函数 $p(\mathbf{t}\ |\ \mathbf{w},X,\beta)$ 好办
$p (t | w, X, β) = \prod n = 1 N p (t n | w, x n, β)$ $p(\mathbf{t}\ |\ \mathbf{w},X,\beta)= \prod_{n=1}^{N}p(t_n\ |\ \mathbf{w},\mathbf{x}_n,\beta)$
$p(t_n\ |\ \mathbf{w},\mathbf{x}_n,\beta)$ 是啥：
$p (t | x, w, β) =  (t | w T Φ (x n), β - 1)$ $p(t\ |\ \mathbf{x},\mathbf{w},\beta)=\mathcal{N}(t\ |\ \mathbf{w}^T\varPhi(\mathbf{x}_n),\beta^{-1})$
所以
$p (t | w, X, β) = \prod n = 1 N  (t n | w T Φ (x n), β - 1)$ $p(\mathbf{t}\ |\ \mathbf{w},X,\beta)=\prod_{n=1}^{N}\mathcal{N}(t_n\ |\ \mathbf{w}^T\varPhi(\mathbf{x}_n),\beta^{-1})$

由于我们是对 $\mathbf{w}$ 进行估计（注意，对不同参数进行估计选择的共轭先验是不同的），似然函数是 $\mathbf{w}$ 的二次函数的指数形式，于是对应的先验分布是高斯分布：

p (w) =  (w | m 0, S 0)

$p(\mathbf{w})= \mathcal{N}(\mathbf{w}\ |\ \mathbf{m}_0,\mathbf{S}_0)$

所以得 $\mathbf{w}$ 的后验分布为：

p (w | X, t, β) =  (w | m N, S N)

$p(\mathbf{w}\ |\ X,\mathbf{t},\beta)=\mathcal{N}(\mathbf{w}\ |\ \mathbf{m}_N,\mathbf{S}_N)$

其中

m N = S N (S - 1 0 m 0 + β Φ T t)

$\mathbf{m}_N=\mathbf{S}_N(\mathbf{S}_0^{-1}\mathbf{m}_0+\beta\Phi^T\mathbf{t})$

S - 1 N = S - 1 + β Φ T Φ

$\mathbf{S}_N^{-1}=\mathbf{S}^{-1}+\beta\Phi^T\Phi$

至此，后验分布确定（其实还有超参 $\alpha$ —— $\mathbf{w}$ 的先验分布精度、 $\beta$ ——高斯噪声精度，没有被确定，可以通过交叉验证或后面的证据近似来确定）

p (t | w, x, β) =  (t | w T Φ (x), β)

$p(t\ |\ \mathbf{w},\mathbf{x},\beta)=\mathcal{N}(t\ |\ \mathbf{w}^T\varPhi(\mathbf{x}),\beta)$
注意，这里的

x $\mathbf{x}$ 是我们要进行预测的新特征向量。

这里要求俩个分布的卷积，由高斯边缘密度公式的：

p (t | x, t, α, β) =  (t | m T N Φ (x), σ 2 N (x))

$p(t\ |\ \mathbf{x},\mathbf{t},\alpha,\beta)=\mathcal{N}(t\ |\ \mathbf{m}_N^T\varPhi(\mathbf{x}),\sigma_N^2(\mathbf{x}))$

其中预测分布的方差 $\sigma_N^2(\mathbf{x})$ 为：

σ 2 N (x) = 1 β + Φ (x) T S N Φ (x)

$\sigma_N^2(\mathbf{x})=\frac{1}{\beta}+\varPhi(\mathbf{x})^T\mathbf{S}_N\varPhi(\mathbf{x})$

MLAPP中还介绍了利用Laplace distribution做likelihood的方法

p (y | x, w, b) = L a p (y | w T x, b) \propto e x p (- 1 b | y - w T x |)

$p(y\ |\ \mathbf{x},\mathbf{w},b)=Lap(y\ |\ \mathbf{w}^T\mathbf{x},b)\propto exp(-\frac{1}{b}|y-\mathbf{w}^T\mathbf{x}|)$
利用split variable trick转化成线性规划问题（linear program）

另介绍了一种神奇的损失函数——Huber loss function

L H (r, δ) = {r 2 2 δ | r | - δ 2 2 i f | r | \leq δ i f | r | > δ

$L_H(r,\delta)=\begin{cases}\frac{r^2}{2} & if\ |r|\leq\delta& \\\ \delta|r|-\frac{\delta^2}{2} &if\ |r|>\delta \end{cases}$

当误差较小时，等价于 $ℓ2$ 范数，误差较大时，等价于 $ℓ1$ 范数，此函数处处可微，可以用牛顿法等计算而非线性规划。

还有一张非常直观的表

Likelihood	Prior	Name
Gaussian	Uniform	Least squares
Gaussian	Gaussian	Ridge
Gaussian	Laplace	Lasso
Laplace	Uniform	Robust regression
Student	Uniform	Robust regression

MTM00

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
回归的线性模型（2）

Linear Models for Regression（2）回归的线性模型（2）其实越往后面越发现自己之前认识的片面性，但是对我这种记性不好的人来说还是要写一点东西总结一下，以便之后翻查，审视自己当初的思路有没有错误。不当之处还请各位及时批评。接前文前文已经看到，采用最大似然方法对目标变量的分布进行点估计时，容易产生过拟合现象，通过引入分布参数的先验概率来引入正则化项，
复制链接

扫一扫