Machine Learning(Andrew)Week3(下)

Machine LearningWeek3

The problem of overfitting

1、过拟合Overfitting

曲线拟合:

Curve fitting  is the process of constructing a curve, or mathematical function, 

that has the best fit to a series of data points,possibly subject to constraints(Wikipedia)

在做房屋预测的时候,假设给了五笔资料,训练得到的h(x),可能有三种情况:

 

第一幅图是欠拟合,点并不是完全都拟合到线上(可以看出,点基本不在线上,而是在线附近)。

第三幅图是过拟合,点完全都在线上。

第二幅图是好像还比较均衡,有的点不在线上,大部分都在。

如果问,哪个图更好。有可能你会说,第三个啊,第三个点都在线上,不是很准吗?

但是,我们要做的预测,是针对没有看过的点,第三条线在给的数据上做的这么好,但在预测新的点时,可能效果不好。

而第一幅图很显然,欠拟合,连训练数据都没有办法预测的好。

在前面Hsuan-Tien Lin 课中讲到过,f产生数据集D时是有噪声存在的,所以y≠f(x),而是y=f(x)+ε(这里ε是噪声)。f(x)就是我们的理想模型。我们求和f接近的g,总不可能做到百分百一模一样,因此在允许有错的前提下找最好的g。假设模型是y=hθ(x)。然后根据成本函数,求出的最好的h,就说那个h就是g。

那求得的g的误差是多少呢?我们用最小平方差来求。

 

就是求h(xi)和yi的差的和。引入一个统计量MSE来衡量预测值与实际值的差异。


可以看出E(MSE),有两部分,噪声产生的方差,g和f之间的误差。这两部分一个是y自身的偏差,一个是模型产生的方差。噪声产生的方差是没有办法约束的,因此,只能在模型产生的方差上改进。

模型产生的误差有两个部分构成


噪声产生,Bias,Variance.

Bias is a learner’s tendency to consistently learn the same wrong thing. 

Variance is the tendency to learn random things irrespective of the real signal.

(from《A Few useful things to Know About machine Learning》)

网上搜到一个比较好的解释:

Bias 度量了某种学习算法的平均估计结果所能逼近学习目标的程度;独立于训练样本的误差,刻画了匹配的准确性和质量:一个高的偏差意味着一个坏的匹配。Variance 则度量了在面对同样规模的不同训练集时,学习算法的估计结果发生变动的程度。相关于观测样本的误差,刻画了一个学习算法的精确性和稳定性:一个高的方差意味着一个弱的匹配。

所以,要想我们的bias小,就要让我们的模型尽量多的拟合训练数据,这样就会使Variance变大,这样就容易过拟合。

产生过拟合主要原因是,我们用了比较多的特征,使得hypothesis 很好的拟合训练数据。

 

解决过拟合问题:

(1)减少特征数

手工选择

算法(后面课程会讲到如PCA)

(2)正规化成本函数

特征都保留,减小特征系数

2、正规化成本函数

正规化听上去很熟,什么意思呢?

因为我们选择保留所有的特征,所以模型就过拟合了。如上面那幅图,中间的模型似乎比较适中,可是我们做出来的模型是最右边的那幅图。这个比较容易,因为,拟合的时候都是给我们已知的数据,我们总是想办法把所有点都拟合到线上。等拟合完,发现曲线做的太过了,凡是看过的数据都分对了。但对于新数据,效果又不一定好。我们想让最右的线变成中间的那一条,但是,我们又不想丢掉特征。怎么办呢?我们对参数θ下手。最右的图和中间那幅的区别就是,多了及之后的特征,要对它们进行惩罚。惩罚的方法是让它们的参数θ≈0。这个就好像对及之后的特征进行惩罚,因为它们使Variance变大,所以减小这些特征的参数,就好像给让它们的权重小点,使它们对预测结果的影响比之前小。

一种做法是,在成本函数中,在要惩罚的参数前面设一个大的系数,这样,在求最小J时,只好让它们的值近似于0。

但是,如果我们不知道惩罚哪个或哪些参数呢?比如我们知道过拟合是最右那幅图,但是不知道刚刚好的时候是中间那幅图,也就不知道哪些参数是需要受惩罚的。这时,我们就让所有的参数都小一些。 


这就是正规化后的成本函数,我们也还是要找到minJ(θ)。和之前线性回归成本函数相比多了一项,其中λ是正规化参数。注意,θ是从j=1开始的,因为我们不惩罚θ0,它并不是特征的系数。

λ的选择不能太大也不能太小。太小了,对防止过拟合意义不大,如果太大了也不行。会有如下问题:

 

就是说会使模型变成欠拟合。这也很容易理解,因为λ很大,为求minJ(θ),所有的参数θ都趋于0,最后只剩一个θ0。

如:

3、正规化的线性回归和逻辑回归比较


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值