斯坦福大学机器学习第七课“正则化(Regularization)”

最新推荐文章于 2024-08-13 22:12:36 发布

li4850729

最新推荐文章于 2024-08-13 22:12:36 发布

阅读量6.3k

点赞数 1

分类专栏： MachineLearning

MachineLearning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【转自】：http://52opencourse.com/133/coursera%E5%85%AC%E5%BC%80%E8%AF%BE%E7%AC%94%E8%AE%B0-%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AC%AC%E4%B8%83%E8%AF%BE-%E6%AD%A3%E5%88%99%E5%8C%96-regularization

斯坦福大学机器学习第七课"正则化“学习笔记，本次课程主要包括4部分：

1) The Problem of Overfitting(过拟合问题)

2) Cost Function(成本函数)

3) Regularized Linear Regression(线性回归的正则化)

4) Regularized Logistic Regression(逻辑回归的正则化)

以下是每一部分的详细解读。

1) The Problem of Overfitting(过拟合问题)

拟合问题举例-线性回归之房价问题：

a) 欠拟合(underfit, 也称High-bias)

欠拟合-我爱公开课-52opencourse.com

b) 合适的拟合：

拟合问题-我爱公开课-52opencourse.com

c) 过拟合(overfit,也称High variance)

过拟合-我爱公开课-52opencourse.com

什么是过拟合(Overfitting):

如果我们有非常多的特征，那么所学的Hypothesis有可能对训练集拟合的非常好( )，但是对于新数据预测的很差。

过拟合例子2-逻辑回归：

与上一个例子相似，依次是欠拟合，合适的拟合以及过拟合：

a) 欠拟合

逻辑回归欠拟合-我爱公开课-52opencourse.com

b) 合适的拟合

逻辑回归合适的拟合-我爱公开课-52opencourse.com

c) 过拟合

逻辑回归过拟合-我爱公开课-52opencourse.com

如何解决过拟合问题：

首先，过拟合问题往往源自过多的特征，例如房价问题，如果我们定义了如下的特征：

特征选择-我爱公开课-52opencourse.com

那么对于训练集，拟合的会非常完美：

房价问题过拟合-我爱公开课-52opencourse.com

所以针对过拟合问题，通常会考虑两种途径来解决：

a) 减少特征的数量：

-人工的选择保留哪些特征；

-模型选择算法（之后的课程会介绍）

b) 正则化

-保留所有的特征，但是降低参数的量/值；

-正则化的好处是当特征很多时，每一个特征都会对预测y贡献一份合适的力量；

2) Cost Function(成本函数)

依然从房价预测问题开始，这次采用的是多项式回归：

a) 合适的拟合：

多项式回归正则化-我爱公开课-52opencourse.com

b) 过拟合

多项式回归过拟合-我爱公开课-52opencourse.com

直观来看，如果我们想解决这个例子中的过拟合问题，最好能将的影响消除，也就是让 .

假设我们对进行惩罚，并且令其很小，一个简单的办法就是给原有的Cost function加上两个略大惩罚项，例如：

成本函数-我爱公开课-52opencourse.com

这样在最小化Cost function的时候， .

正则化：

参数取小一点的值，这样的优点：

-“简化”的hypothesis；

-不容易过拟合；

对于房价问题：

-特征包括：

-参数包括：

我们对除以为的参数进行惩罚，也就是正则化：

对cost function进行正则化-我爱公开课-52opencourse.com

正式的定义-经过正则化的Cost Function有如下的形式：

正则化正式的定义-我爱公开课-52opencourse.com

其中称为正则化参数，我们的目标依然是最小化 :

例如，对于正则化的线性回归模型来说，我们选择来最小化如下的正则化成本函数：
正则化的线性回归模型—我爱公开课-52opencourse.com

如果将设置为一个极大的值（例如对于我们的问题，设 )? 那么

-算法依然会正常的工作, 将设置的很大不会影响算法本身；

-算法在去除过拟合问题上会失败；

-算法的结构将是欠拟合（underfitting),即使训练数据非常好也会失败；

-梯度下降算法不一定会收敛；

这样的话，除了，其他的参数都约等于0, , 将得到类似如下的欠拟合图形：

欠拟合线性回归-我爱公开课——52opencourse.com

关于正则化，以下引自李航博士《统计学习方法》1.5节关于正则化的一些描述：

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

正则化符合奥卡姆剃刀(Occam's razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率。

3) Regularized Linear Regression(线性回归的正则化)

线性回归包括成本函数，梯度下降算法及正规方程解法等几个部分，不清楚的读者可以回顾第二课及第四课的笔记，这里将分别介绍正则化后的线性回归的成本函数，梯度下降算法及正规方程等。

首先来看一下线性回归正则化后的Cost function:

线性回归正则化Cost function-我爱公开课-52opencourse.com

我们的目标依然是最小化，从而得到相应的参数 . 梯度下降算法是其中的一种优化算法，由于正则化后的线性回归Cost function有了改变，因此梯度下降算法也需要相应的改变：

正则化线性回归梯度下降算法-我爱公开课-52opencourse.com

注意，对于参数，梯度下降算法需要区分和。

同样的正规方程的表达式也需要改变，对于：

X 是m * (n+1)矩阵

正规方程-我爱公开课——52opencourse.com

y是m维向量：

正规方程表达式-我爱公开课-52opencourse.com

正则化后的线性回归的Normal Equation的公式为：

线性回归正则化Normal Equation-我爱公开课-52opencourse.com

假设样本数m小于等于特征数x, 如果没有正则化，线性回归Normal eqation如下：

如果不可逆怎么办？之前的办法是删掉一些冗余的特征，但是线性回归正则化后，如果，之前的公式依然有效：

不可逆后的正规方程-我爱公开课-52opencourse.com

其中括号中的矩阵可逆。

4) Regularized Logistic Regression(逻辑回归的正则化)

和线性回归相似，逻辑回归的Cost Function也需要加上一个正则化项（惩罚项），梯度下降算法也需要区别对待参数\(\theta).

再次回顾一些逻辑回归过拟合的情况，形容下面这个例子：

逻辑回归过拟合-我爱公开课-52opencourse.com

其中Hypothesis是这样的：

逻辑回归假设空间-我爱公开课-52opencourse.com

逻辑回归正则化后的Cost Function如下：

正则化逻辑回归Cost Function-我爱公开课-52opencourse.com

梯度下降算法如下：

正则化逻辑回归梯度下降算法-我爱公开课-52opencourse.com

其中 .

参考资料：

第七课“正则化”的课件资料下载链接，视频可以在Coursera机器学习课程上观看或下载：https://class.coursera.org/ml

PPT PDF

李航博士《统计学习方法》

http://en.wikipedia.org/wiki/Regularization_%28mathematics%29

http://en.wikipedia.org/wiki/Overfitting

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄14年

49
原创

32
点赞

145
收藏

56
粉丝

关注

私信

热门文章

分类专栏

最新评论

数据的归一化
Solong1989: 博主你好，请问一下，就像您说的，如果测试集在某个特征上出现了大于训练集的最大值或最小值的数据，那么这个时候怎么做归一化呢？归一化后岂不是出现大于1的值？
sockaddr_in中sin_zero的意义，以及sockaddr_in sockaddr in_addr区别联系
王大明总不在: 仔细看了一下，中间有说到 “sin_zero是为了让sockaddr与sockaddr_in两个数据结构保持大小相同而保留的空字节。”，是我没看完整
sockaddr_in中sin_zero的意义，以及sockaddr_in sockaddr in_addr区别联系
王大明总不在: 仔细看了一下，中间有说到 “sin_zero是为了让sockaddr与sockaddr_in两个数据结构保持大小相同而保留的空字节。”，是我没看完整
sockaddr_in中sin_zero的意义，以及sockaddr_in sockaddr in_addr区别联系
王大明总不在: sa_data就是sockaddr_in的sin_addr和sin_port？？？？我觉得是sa_data就是sockaddr_in的sin_addr，sin_port和sin_zero。最后贴出的in_addr存放的是union类型数据，其大小为最大数据类型大小，应该是4Byte，加上sin_addr的2Byte和sin_zero的8Byte，刚好是14Byte，跟sa_data[14]一样大。
国嵌视频学习第十一天——内核进程控制
-Swell: 这是底层还是应用呢？？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。