机器学习笔记(9)----------正则化(Regularization)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/liuhehe123/article/details/81584288

我们使用线性回归和logistic可以解决很多问题,然而,在应用这些算法中往往会出现过拟合问题,导致算法的效果很差。

首先先来看看什么是过拟合问题?

上图,第一个模型 欠拟合 第二个模型 拟合效果很好 第三个模型 则是我们所说的 过拟合,因为它试图拟合每一个数据点,这是一个四次方模型,过于强调拟合数据,而失去了算法的本质:预测新数据。如果给出一个新值,让其预测结果将会很差。

分类中的过拟合

分类中也同样存在过拟合问题,举个栗子:

 

出现了同样的问题。可以发现,就多项式而言,x的次数越高,拟合的效果越好,但是预测的能力就可能变差。

对于过拟合问题该怎样处理?

 

1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一

些模型选择的算法来帮忙(例如 PCA)

2.正则化。 保留所有的特征,但是减少参数的大小( magnitude)。

 

现在来说一说代价函数:

 

上面回归中出现过过拟合的模型:

正常拟合

 

 

可以发现正是这些高次项影响了结果,导致了过拟合问题,因此,如果能让高次项系数接近0,这样就能解决过拟合问题。

我们要做的就是在一定程度上减小这些参数

http://note.youdao.com/noteshare?id=ec485a44a60527c617283e42a26bfe2e

展开阅读全文

没有更多推荐了,返回首页