机器学习Class 7:过拟合与正则化

目录

7-1 过拟合问题

7-2 代价函数

7-3 线性回归的正则化

 1.梯度下降&正则化

2.正规方程&正则化

 3.不可逆

7-4 逻辑回归的正则化 


7-1 过拟合问题

如图为房屋价格预测模型

 对于该类问题,我们可以使用一次函数曲线拟合,但因实际上房价会随着面积增大而趋于稳定,因此一次函数不能很好的拟合数据集,称为欠拟合,即高偏差。

我们也可以使用四次函数曲线拟合,尽管曲线可能会包含所有数据点,但因四次曲线在图像上表现为一会凹一会凸不停波动的形式,因此不能很好的拟合,称为过拟合,即高方差。通常在变量过多时出现该情况。 

解决方法:

1.减少特征数量

2.正则化(保留特征数量)

7-2 代价函数

若使用四次函数Θ0+Θ1*x+Θ2*x^2+Θ3*x^3+Θ4*x^4拟合数据,会产生过拟合问题。为了解决这一问题,我们在目标函数后加上惩罚项:a*Θ3^2+b*Θ4^2(a,b为较大的常数)。因为我们的目的是最小化目标函数J(Θ),因此为了达到这个目的,Θ3和Θ4要尽可能的小,即趋近于零。这即是正则化的思想。

正则化:较小的参数值,可以简化假设模型

实际上,在众多的特征量中无法预测哪个特征量关联度较低,因此需要使每个参数Θ都尽可能的小。代价函数如下:

 λ为正则化参数,若λ过大,会导致所有θ都趋近于零,最后只剩θ0这一项,等同于用直线拟合数据,产生了欠拟合问题。

7-3 线性回归的正则化

 1.梯度下降&正则化

无需对θ_0进行惩罚。

方法:

两式合一后可得下式: 

 为一个比1略小的数

2.正规方程&正则化

方法:

 

 λ乘以(n+1)*(n+1)的矩阵,n为特征数量 

 3.不可逆

 若样本数量m小于特征数量n则以下矩阵不可逆

但当λ>0时,正则化后的一定可逆

7-4 逻辑回归的正则化 

 逻辑回归也会产生过拟合问题,使用正则化后

高级优化算法:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值