目录
5 回归问题中的曲线过拟合问题及解决
5.1 过拟合问题介绍
5.1.1 线性回归中的曲线过拟合问题
我们还拿卖房子为例,对于(房面积,房价)的数据集,我们给出了如下三种曲线拟合方式。
我们先来了解一组概念:方差与偏差
偏差:(bias)是指一个模型的在不同训练集上的平均性能和最优模型的差异。偏差可以用来衡量一个模型的拟合能力。偏差越大,预测值平均性能越偏离最优模型。偏差衡量模型的预测能力,对象是一个在不同训练集上模型,形容这个模型平均性能对最优模型的预测能力。
方差:( variance)描述的是一个模型在不同训练集上的差异,描述的是一个模型在不同训练集之间的差异,表示模型的泛化能力,方差越小,模型的泛化能力越强。可以用来衡量一个模型是否容易过拟合。预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,预测结果数据的分布越散。方差用于衡量一个模型在不同训练集之间的关系,和最优模型无关。对象是不同训练集上的一个模型,表示选取不同的训练集,得出的模型之间的差异性。
①左侧的拟合方式:存在高偏差(High bias)的问题,预测值平均性能越偏离最优模型。
②中侧的拟合方式:优秀的拟合方式
③右侧的拟合方式:存在高方差的问题,虽然在这个模型中代价函数可能很少,但是它的泛化能力很差,难以泛化...
5.1.2 逻辑回归中的曲线过拟合问题
左侧拟合高偏差;中间为优秀拟合;右侧为过拟合。
5.1.3 如何解决过拟合问题
减少特征数量:手动选择要保留的特征;模型选择算法(后章介绍)
正则化参数:保留所有特征,但减小参数的权值
;当我们有很多特征时,效果很好,每个特征都对预测
有所贡献。
5.2 将参数正则化解决过拟合问题
如上图所示,左图是优秀拟合示例,右图蓝色是过拟合的示例,如果我们降低
的权重(0.0000001),则可以得到紫色的优秀拟合示例。
在正则化线性回归中,我们选择
以最小化:
那么我们如何选择参数
呢?如果
过大
①算法工作正常,设置
非常大也无所谓。
②但算法无法消除过拟合
③算法导致欠拟合。(甚至无法很好地拟合训练数据)。
④梯度下降法无法收敛
若设置
过大最终拟合效果如上图:我们可以看到,曲线是欠拟合的....
5.3 正则化线性回归
5.3.1 代价函数
这里,
表示数据集的数量,
表示待拟合参数的数量。
5.3.2 梯度下降法迭代θ
5.3.3 正规方程求θ
对于
个特征的待拟合线性回归方程