week7

最新推荐文章于 2021-11-01 09:08:13 发布

qq_44038801

最新推荐文章于 2021-11-01 09:08:13 发布

阅读量97

点赞数

分类专栏： # 吴恩达机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_44038801/article/details/121057691

版权

吴恩达机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了处理过拟合的方法，包括特征选择和正则化。正则化通过在代价函数中添加参数惩罚项来减小高次项权重，避免模型复杂度过高。线性回归和逻辑回归中都应用了正则化，通过梯度下降法或正规方程求解。合适的正则化参数λ能平衡模型复杂度和泛化能力，防止欠拟合。

摘要由CSDN通过智能技术生成

7.1 过拟合的问题

处理过拟合问题(over-fitting)：

丢弃一些无用特征
正则化(regularization)

7.2 代价函数

对于模型 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_3^3+\theta_4x_4^4$ ，由于高次项导致过拟合的产生，如果能让这些高次项的系数接近0的话，可以很好的拟合。所以要减少这些参数的值，这是正则化的基本方法。如果要减少 $\theta_3$ 和 $\theta_4$ 的大小，修改代价函数，在其中 $\theta_3$ + $\theta_4$ 设置惩罚。修改后的函数如下：

$min_\theta \frac{1}{2m}[\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+1000\theta_3^2+1000\theta_4^2]$

通过这样的代价函数选择的 $\theta_3$ 和 $\theta_4$ 对预测结果的影响比之前小很多。假如我们有很多的特征，我们并不知道哪些特征需要惩罚，我们将对所有的特征进行惩罚，代价函数如下： $J(\theta)=\frac{1}{2m}[\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum\limits_{j=1}^n\theta_j^2]$

其中 $\lambda$ 又称为正则化参数(Regularization Parameter)。

不对 $\theta_0$ 进行惩罚

如果选择的正则化参数 $\lambda$ 过大，则会把所有的参数都最小化，导致模型变成 $h_\theta(x)=\theta_0$ ，造成欠拟合。所以， $\lambda$ 要取一个合理值。

7.3 正则化线性回归

对于线性回归的求解，之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程

正则化线性回归的代价函数为：

$J(\theta)=\frac{1}{2m}[(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum\limits_{j=1}^n\theta_j^2]$

如果使用梯度下降法令这个代价函数最小化，

因为我们未对 $\theta_0$ 进行正则化，所以梯度下降算法分2种情形：

$r e p e a t$ $u n t i l$ $c o n v e r g e n c e$ {

$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum\limits_{i=1}^m((h_\theta(x^{(i)})-y^{(i)})x_0^{(i)})$

$\theta_j:=\theta_j-\alpha[\frac{1}{m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]$

$j=1,2,\cdots,n$

}

我们同样利用正规方程来求解正则化线性回归模型，方法如下：

7.4 正则化的逻辑回归模型

针对逻辑回归问题，之前学过2种优化算法：梯度算法和高级优化算法。

代价函数加入正则化表达式，得到代价函数：

$J(\theta)=\frac{1}{m}\sum\limits_{i=1}^m[-y^{(i)}log(h_\theta(x^{(i)}))-(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum\limits_{j=1}^n\theta_j^2$

最小化该代价函数，通过求导，得到梯度下降算法为：

$r e p e a t$ $u n t i l$ $c o n v e r g e n c e$ {

$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}$

$\theta_j:=\theta_j-\alpha[\frac{1}{m}\sum\limits_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{\lambda}{m}\theta_j]$

$j=1,2,\cdots,n$

}

qq_44038801

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
week7

7.1 过拟合的问题处理过拟合问题(over-fitting)：丢弃一些无用特征正则化(regularization)7.2 代价函数对于模型hθ(x)=θ0+θ1x1+θ2x22+θ3x33+θ4x44h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_3^3+\theta_4x_4^4hθ(x)=θ0+θ1x1+θ2x22+θ3x33+θ4x44，由于高次项导致过拟合的产生，如果能让这些高次项的系数
复制链接

扫一扫

专栏目录