机器学习（三）正则化Regularization

最新推荐文章于 2024-05-22 16:02:00 发布

原创最新推荐文章于 2024-05-22 16:02:00 发布

· 282 阅读

0 ·

版权

文章标签：

#机器学习 #概率论 #算法

机器学习专栏收录该内容

8 篇文章

订阅专栏

本文探讨了过拟合现象及其在线性回归中的解决方案——正则化。通过引入λ参数，我们调整系数的大小，减少五次项影响，利用梯度下降法实现规范化，同时介绍了规范解和逻辑回归的正则化应用。比较了极大似然估计（MLE）和最大后验估计（MAP）在正则化的不同理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则化

背景-过拟合
线性回归正则化 Regularized Linear Regression
逻辑回归正则化
- 逻辑回归的COST函数
MLE MAP

背景-过拟合

在这里插入图片描述
由图中可以看出，当只有一次项的时候，拟合程度不够Underfitting，当存在五次方项的时候就存在过拟合现象，假设函数很好的fit给定的数据，但是不利于数据的预测
解决过拟合问题的方案：
1、减少特征值的数量

2、正则化：

不改变特征值的数量，减小他的系数 $\theta_j$ 以削弱影响
当我们有大量影响较小的feature的时候，正则化就很有用

线性回归正则化 Regularized Linear Regression

对于下列函数：
$\theta_0 + \theta_1x + \theta_2 x^2 + \theta_3x^3 + \theta_4x^4$
消除 $\theta_3x^3 + \theta_4x^4$ 的影响，会使得曲线更加平滑，cost函数将重新进行定义：
$\min_{\theta} \frac{1}{2m}\left[ \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 + 1000\cdot\theta_3^2 + 1000\cdot\theta_4^2\right]$

更通用的一个定义：

$\min_{\theta} \frac{1}{2m}\left[ \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 +\lambda\sum_{j=1}^{m}\theta_j^2\right]$
注意这里没有考虑 $\theta_0$ ，因为 $\theta_0$ 代表的是常数项，是平移，我们想让曲线更加平滑，但是不想改变它的位置。
这个方程，依赖于 $\lambda$ ，也依赖于系数的平方项

梯度下降法

$\{ \\ \theta_0 = \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)} )x_0^{(i)} \\ \theta_j = \theta_j - \alpha \left[ \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)} )x_j^{(i)} + \frac{1}{m}\theta_j\right] \\ \} until \quad convergence\quad condition \quad is \quad satisfied$
在梯度下降的的过程中，正则化就是通过 $\frac{1}{m}\theta_j$ 体现出来的

规范解 Normal equation

$\theta = (X^TX+\lambda\cdot L)^{-1}X^T Y$
$\begin{bmatrix} 0&&&\\ &1&&\\ &&\ddots&\\ &&&1 \end{bmatrix}$

逻辑回归正则化

逻辑回归的COST函数

$J(\theta) = -\frac{1}{m}\sum_{i = 1}^m ( y^{(i)} \log (h_\theta) + （1- y^{(i)}）\log(1-h_\theta(x^{(i)})))$
增加一项，将其正则化，
$J(\theta) = -\frac{1}{m}\sum_{i=1}^m ( y^{(i)} \log(h_\theta(x)) + (1- y^{(i)}) \log(1- h_\theta(x^{(i)}))) + \frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
在梯度下降的跌代过程中
$\theta_0 = \theta_0 - \alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)}$
$\theta_j = \theta_j - \alpha (\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)} + \frac{\lambda}{m}\theta_j )$

MLE MAP

假设数据是服从分布模型：
$\sim p(d;\theta)$
目标估计 $\theta$ 的值，使得模型最贴合data的分布

MLE 极大似然估计

选择参数 $\theta$ ，使得data出现的概率最大。
对于与给定参数 $\theta$ ，给定数据data出现的概率为：
$L(\theta) = p(D;\theta) = \prod_{i=1}^m p(d^{(i)};\theta)$

取对数，不影响函数的单调性，有一致的极值点

$l(\theta) = \log L(\theta) = \sum_{i=1}^m \log p(d^{(i)};\theta)$

$\theta_{MLE} = \arg \max_\theta \sum_{i=1}^m \log p(d^{(i)};\theta)$

MAP 最大后验估计

由贝叶斯公式可以得出，后验概率
$p(\theta| D ) = p(\theta) \frac{p( D|\theta)}{p(D)}$

$p(\theta)$ ：先验概率，在没有看到数据的时候，有经验获得的概率或者猜测的概率
$p (D)$ :data 出现的概率
$\int_\theta p(\theta)p(D|\theta)d\theta$
$p (D)$ 的值和 $\theta$ 无关
$\theta_{MAP} = \arg \max_\theta p(\theta|D) \\ = \arg \max_\theta p(\theta) \frac{p(D|\theta)}{p(D)}\\ = \arg \max_\theta p(\theta)p(D| \theta)\\ =\arg \max_\theta(\log p(\theta) + \sum_{i=1}^m\log p(d^{(i)};\theta))$

比较 MLE MAP

MLE：
$\theta_{MLE} = \arg \max_\theta \sum_{i=1}^m \log p(d^{(i)};\theta)$
MAP:
$\theta_{MAP} = \arg \max_\theta(\log p(\theta) + \sum_{i=1}^m\log p(d^{(i)};\theta))$

极大似然估计，忽略了 $\theta$ 本身的分布，认为 $\theta$ 的分布是均匀的，但是MAP认为 $\theta$ 是服从某一个分布的

MLE solution

对于数据集中 $x^{(i)},y^{(i)})$
$y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)}$
其中 $\epsilon^{(i)}$ 服从高斯分布
$\epsilon^{(i)} \sim N(0,\sigma^2)$

那么可以得出 $y^{(i)}$ 服从高斯分布
$y^{(i)} | x^{(i)};\theta \sim N(\theta^Tx^{(i)},\sigma^2)$

补充：高斯分布的概率密度函数
$\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x - u)^2}{2\sigma^2})$

那么似然函数就成了
$l(\theta) = \log L(\theta) = m\log \frac{1}{\sqrt{2\pi}\sigma} - \frac{\sum_{i=1}^m(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2}$
要使 $l(\theta)$ 取最大值
$\theta_{MLE} = \arg\min_\theta \frac{1}{2\sigma^2}\sum_{i=1}^m(y^{(i)} - \theta^Tx^{(i)})^2$

MAP solution

我们假设 $\theta$ 服从高斯分布 $\theta\sim N(0,\lambda^2)$
$p(\theta) = \frac{1}{(\sqrt{2\pi}\lambda^2)^n}exp(-\frac{\theta^T\theta}{2\lambda^2})$

$\theta_{MAP} = \arg \max_\theta(\log p(\theta) + \sum_{i=1}^m\log p(d^{(i)};\theta))\\ =\arg \max_\theta (-n\log(\frac{1}{\sqrt{2\pi}\lambda^2})-\frac{\theta^T\theta}{2\lambda^2} + \sum_{i=1}^{m}\log(\frac{1}{\sqrt{2\pi}\sigma^2} \exp( -\frac{( y^{(i) - \theta^Tx^{(i)}} ) ^2}{2\sigma^2})))\\ =\arg \max_\theta(-n\log(\frac{1}{\sqrt{2\pi}\lambda^2}) -\frac{\theta^T\theta}{2\lambda^2} + m \log(\frac{1}{\sqrt{2\pi}\sigma^2}) - \sum_{i=1}^{m}\frac{( y^{(i) - \theta^Tx^{(i)}} ) ^2}{2\sigma^2})$