5.1 什么是过拟合问题?
还是用那个线性回归的房子预测
最右边的图像看起来拟合的很好,但是实际上它不停上下波动。这种问题我们称之为过度拟合,这个算法具有高方差。过度拟合问题将会在变量过多的时候出现,这时训练出的假设能很好地拟合训练集,所以代价函数实际上可能非常接近于0。但这样就会遇到最右边的情况,它千方百计地拟合训练集导致它无法泛化(一个假设模型应用到新样本的能力)到新的样本中无法预测新样本的价格。
这样的情况也同样适用于逻辑回归(logistic regression)
5.2 解决过拟合问题
- 尽量减少选取变量的数量:具体的做法就是人工检查变量清单并以此决定哪些变量更为重要,哪些特征变量应该保留,哪些应该舍弃;后面会学到模型选择算法,这种算法可以自动选择哪些特征变量应该保留和舍弃。缺点就是:有些特征变量是被需要的,舍弃掉会对预测有影响。
- 正则化:我们会保留所有的特征变量,但是减少量级或者的大小,这个方法非常有效。
5.3 正则化
还是第一个例子图
对于过度拟合的右边那张图,可以让数值很小,约等于0。
这是优化目标: ,在这个优化目标后加上
正则化的思路就是:如果我们的参数值较小,参数值较小意味着一个更简单的假设模型。就比如说上面的,让它们接近与0,我们会得到一个更简单的假设模型。
正则化的优化目标:
第一个目标是与目标函数的第一项有关,就是我们想去训练、想更好地拟合数据、更好地拟合训练集;第二个目标就是我们要保持参数尽量地小与目标函数第二项有关、与正则化目标有关。在这里的是用来控制两个不同目标之间的取舍,被称为正则化参数,更好地去拟合训练集的目标和将参数控制得更小的目标,从而保持假设模型的相对简单,避免出现过拟合的情况。
5.4 线性回归的正则化
上一节正则化代价函数:
正则化的梯度下降:等价于
其中:,,且的更新是单独的
在之前学过用正规方程来计算,在没有正则化之前:
正则化之后:if ,
5.5 逻辑回归的正则化
逻辑回归的代价函数:
正则化的逻辑回归代价函数:
正则化的梯度下降:
其中,,,且的更新是单独的