《machine learning》7正则化

最新推荐文章于 2022-10-07 19:53:36 发布

ElonZhou99

最新推荐文章于 2022-10-07 19:53:36 发布

阅读量617

点赞数

分类专栏：深度学习文章标签：机器学习逻辑回归正则化

本文链接：https://blog.csdn.net/SuperJayzz1/article/details/109170962

版权

深度学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

7.1 过拟合

欠拟合：模型没有很好的拟合数据集。或称高偏差。
过拟合：高阶多项式，变量太多，数据集不够约束这些变量。或称高方差。
过拟合在参数过多时发生，假设训练出的模型能很好的拟合训练集，误差函数非常接近0，但这样的曲线无法泛化到新样本。
泛化：一个假设模型应用到新样本的能力
在这里插入图片描述
调试和诊断
过拟合解决办法：

减少选取变量的数量，人工选择保留重要的变量，使用算法选择变量
保留所有变量，减少量级，或参数 $\theta_j$ 的大小

7.2 正则化损失函数

变量过多出现过拟合后，引入惩罚项。训练使损失函数趋于0，使得部分变量取值约等于0.
在这里插入图片描述
模型参数越小，模型’越简单‘，曲线更加平滑
不知道选出哪些模型参数添加惩罚函数时，缩小所有模型参数：

正则化项，正则化参数

当正则化参数过大，即对所有模型参数的惩罚系数都很大，导致所有的参数项都约等于0，只剩下一个 $\theta_0$ ，模型最后约等于 $y=\theta_0$ 的直线，导致欠拟合。
应选择合适的正则化参数。
在这里插入图片描述

7.3 线性回归的正则化

梯度解法
损失函数：
$J(\Theta)={1\over 2m}[\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2+\lambda \sum^n_{j=1}\theta^2_j]$
优化函数（加入正则化项的梯度下降）：
$\theta_j:=\theta_j(1-\alpha{\lambda \over m})-\alpha {1\over m}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
在这里插入图片描述
正则化解法
矩阵解法中加入 $\lambda \begin{bmatrix}0&0&0&0 \\ 0&1&0&0 \\ 0&0&1&0 \\ 0&0&0&1\end{bmatrix}$ 正则化项

在样本个数小于特征数时m<=n，会出现 $X^TX)$ 不可逆的情况，如果使用pinv求伪逆的话，能求出来但是求出来最后的假设模型不能很好的拟合数据。
在加入正则化项后，只要正则参数大于0，括号内一定是可逆的。
在这里插入图片描述

7.4 逻辑回归的正则化

在原本逻辑回归的基础上加入正则化项：
损失函数：
$J(\theta)=-{1\over m}\sum^m_{i=1}[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\lambda \sum^n_{j=1}\theta^2_j]$
优化函数：加入正则化项的梯度下降：
$\theta_j:=\theta_j(1-\alpha{\lambda \over m})-\alpha {1\over m}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$
注意：

$\theta_0$ 项不需要加入正则化项，特殊处理
逻辑回归的: $h_\theta(x)={1\over 1+e^{-\Theta^Tx}}={1\over 1+e^{-(\theta_0+\theta_1x_1+\theta_2x_2+\cdots)}}$

ElonZhou99

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《machine learning》7正则化

7.1 过拟合欠拟合：模型没有很好的拟合数据集。或称高偏差。过拟合：高阶多项式，变量太多，数据集不够约束这些变量。或称高方差。过拟合在参数过多时发生，假设训练出的模型能很好的拟合训练集，误差函数非常接近0，但这样的曲线无法泛化到新样本。泛化：一个假设模型应用到新样本的能力调试和诊断过拟合解决办法：减少选取变量的数量，人工选择保留重要的变量，使用算法选择变量保留所有变量，减少量级，或参数θj\theta_jθj的大小7.2 正则化损失函数变量过多出现过拟合后，引入惩罚项。训练使损失
复制链接

扫一扫

专栏目录