过度拟合(over fitting):在拟合数据时,如果要包含每条训练记录数据,则很容易产生过度拟合,换句话说,过度拟合现象在特征变量很多很多时容易产生。(如下
图2所示)
解决过度拟合的两种方法:
- 减少选取特征变量的数量(reduce number of features)
- 正规化:保留所有特征变量,但是减少数量级或者参数大小(keep all the features,but reduce magnitude/values of parameters theta(j))
正规化(regularization):用于改善或者减少过度拟合问题,在使用cost function时进行正规化。
如图2所示,尽管其对每一个训练数据都拟合得很好,但是一般性很差,无法很好用于新的输入数据,因此需要正规化。
因此,正规化的思想是:
对于存在较小值参数:
,在cost function中加入惩罚项,从而求解参数时,值较少的参数约等于0,得到更加简单的函数而且不易于过度拟合,
如图1所示。
正规化线性回归(regularized linear regression):
将之前学习到的线性回归的cost function:
此时,使用
梯度下降算法求解参数:
使用
正规方程算法求解参数: