机器学习--线性回归(二)先验与正则化

最新推荐文章于 2023-10-20 20:09:26 发布

晚照

最新推荐文章于 2023-10-20 20:09:26 发布

阅读量1.4k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/shibianzhu9168/article/details/80297458

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

上一篇我们提到了线性回归，线性回归是麻雀虽小，五脏俱全。定义模型、策略、方法，往后学习的机器学习算法基本上都是这样的套路。这一篇里，我们来讨论一下线性回归里的正则化。

正则化

很多接触过机器学习的同学的人都听过正则化是为了防止过拟合，很简单啊，不就是：

l (W) = 1 2 \sum i = 1 n (y i - W x i) 2 + λ | | W | | 22 (2)

$l(W)=\frac{1}{2}\sum_{i=1}^{n}(y_i-Wx_i)^2 + \lambda ||W||_2^2\tag{2}$
重写了损失函数，加入的后半部分是正则化项，整个损失函数的目的直观上理解是既要让模型拟合训练样本，又要防止模型过于复杂出现正则化。
正则化讲到这里就可以结束了，可以拿去用了。但是，这里面也是有的门道的。

先验

话说统计学有两大门派，一个唤作频率学派，一个唤作贝叶斯学派。这两个学派相爱相杀的故事这里就不展开。跟我们这一章有关系的是，频率学派认为，模型参数的固定的，这是目前未知而已。我们的任务就是从固定但未知的模型参数随机生出的训练样本中估计出参数。而贝叶斯学派认为，岂止样本是随机变量，连模型参数都是服从某种分布的随机变量！这个就6了。既然参数也是服从某种分布的随机变量。那我们在估计模型的时候，就要将参数的概率函数考虑进去，我们假设参数服从标准正太分布：

p (W) = \prod j N (W j | 0, τ 2)

$p(W)=\prod_{j}N(W_j|0,\tau^2)$
相应的最大后验概率估计(MAP,此时就不是MLE了)变成了：

a r g m a x w log (\prod i = 1 n N (y i | W T x i, σ 2) P (W)) = \sum i = 1 n l o g N (y i | W T x i, σ 2) + \sum j l o g N (W j | 0, τ 2)

$argmax_w\log (\prod_{i=1}^{n}N(y_i|W^Tx_i,\sigma ^2)P(W))\\ =\sum_{i=1}^{n}logN(y_i|W^Tx_i, \sigma ^2)+\sum_{j}logN(W_j|0, \tau ^2)$
大家讲后半部分推算下来就能得到我们的正则化项了，对，就是这么神奇！
再告诉大家一个秘密，如果我们假设参数服从拉普拉斯分布，我们将得到另一种正则化项，L1范数，不信你试试！