ML 七、过拟合问题及其解决正则化

最新推荐文章于 2024-07-12 19:06:42 发布

月亮在偷看吖

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量124

点赞数

分类专栏：机器学习文章标签： python 开发语言机器学习过拟合

本文链接：https://blog.csdn.net/QWxixi/article/details/121091647

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

什么是过拟合问题

underfit 欠拟合：先入为主，有很强的偏差 high bias
just right
overfit 过拟合：高方差 high variance——有太多的特征值（阶次太高），对于训练集拟合的很好（为了完美拟合训练集，函数变得很扭曲），但是无法泛化(generalize)到新的样本(new examples)中

如果出现过拟合，我们该怎么解决

尽量减少选取变量的数量 reduce number of features——选择哪些特征变量舍弃、哪些保留
正则化 regularization——保留所有特征变量，但是减少量级or 参数 $\theta_j$ 的大小（当有很多特征变量，每个都对于y有些影响）

正则化是怎样运行的

$J(\theta) = \frac{1}{2m}\sum_{i = 1}^m (h_\theta(x^{(i)})- y^{(i)})^2+\lambda\sum_{j = 1}^m \theta_j^2$

加上一个惩罚项，能让 $\theta_j$ 尽可能小，最后得到的拟合曲线更加平滑

线性回归的正则化

推导了两种算法

基于梯度下降的
基于正规方程的

加上一项

加上所有参数的平方，乘以系数 $\lambda$
$J(\theta) = \frac{1}{2m}\sum_{i = 1}^m (h_\theta(x^{(i)})- y^{(i)})^2+\lambda\sum_{j = 1}^m \theta_j^2$

如何实现

$\theta_0:=\theta_0 - \alpha\frac{1}{m}\sum_{i = 1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \theta_j:=\theta_j - \alpha[\frac{1}{m}\sum_{i = 1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]\\$

移项后：
$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m}) - \alpha\frac{1}{m}\sum_{i = 1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$

从直观上理解，就是每次参数 $\theta _j$ 乘以比1小的数，然后进行之前相同的梯度下降的操作

使用正规方程

$\begin{bmatrix} (x^{(1)})^T \\ .\\.\\.\\ (x^{(M)})^T \end{bmatrix} \quad y = \begin{bmatrix} y^{(1)} \\ .\\.\\.\\ y^{(M)} \end{bmatrix}$

对于X，每一行表示一个单独的训练样本

Y是训练集中所有数据的标签

之前我们发现
$\theta = (X^TX)^{-1}X^Ty$

加上正规化后

$\theta = (X^TX + \lambda \begin{bmatrix} 0\\&1\\&&1\\&&&.\\&&&&.\\&&&&&1 \end{bmatrix} )^{-1}X^Ty$

注意：

原来正规方程需要考虑是否可逆的问题
加上正规化后，不会有这个问题，

logistic回归的正则化

两种算法

梯度下降
更高级的优化算法

加上一项,

$J(\theta) = -[\frac{1}{m}\sum_{i = 1}^my^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)})] + \frac{\lambda}{2m}\sum_{j = 1}^m \theta_j^2$

如何实现

重复：
$\theta_0:=\theta_0 - \alpha\frac{1}{m}\sum_{i = 1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \theta_j:=\theta_j - \alpha[\frac{1}{m}\sum_{i = 1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]$

月亮在偷看吖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML 七、过拟合问题及其解决正则化

什么是过拟合问题underfit 欠拟合：先入为主，有很强的偏差 high biasjust rightoverfit 过拟合：高方差 high variance——有太多的特征值（阶次太高），对于训练集拟合的很好（为了完美拟合训练集，函数变得很扭曲），但是无法泛化(generalize)到新的样本(new examples)中如果出现过拟合，我们该怎么解决尽量减少选取变量的数量 reduce number of features——选择哪些特征变量舍弃、哪些保留正则化 regular
复制链接

扫一扫