过拟合(The Problem of overfitoverfitting):
如果拟合的直线对数据拟合效果不好,则我们称之为“欠拟合”(underfitting),或者有高的偏差(high bias)。
过拟合——我们也称之为有很高的方差(high variance)。过拟合的原因是因为:有过多的特征,假设函数可能对于训练集数据拟合的很好,但是对于新的需要预测的数据却表现很失败。
解决过拟合(addressing overfitting):
1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)
2、正则化。保留所有特征,但是减少参数的大小。
代价函数(Cost Function):
为了减小过拟合,我们可以在代价函数后面加上一项,可以称之为惩罚项,叫做正则项,形式如下图所示。对所有参数进行最小化,当我们让所有参数尽可能小的时候,就可以使得我们的假设函数变得更加平滑,减少过拟合。(注意这里我们是没有加上