1、过拟合
当函数在训练的过程中,可能因为各种原因(比如说特征参数过多)使得函数曲线过度拟合数据集。这种情况会导致得到的优化模型在训练集上的表现良好,但在测试集上的表现很差。从图像上来看,过拟合的函数图像常常是一条过分曲折的曲线。
2、正则项
解决过拟合的办法有不少,比如说减少冗余的特征参数就是一种办法。另一种办法是调整每个参数对整个假设函数的影响。
通常我们不知道是那个特征量导致函数出现过拟合,因此我们可以对每一个参数进行调整,具体的办法是在代价函数后面添加正则项,以线性回归模型为例,添加正则项后的代价函数是:
式子右边这一项就是正则项,正则项的含义就是对每个特征量权重进行调整以达到防止过拟合的目的。其中,λ是正则化参数,这代表着正则化的权重,如果λ过小,则正则项对特征量的调整不明显,函数依然过拟合,如果λ过大,则会有欠拟合的风险。
下面是用上述代价函数求得的带正则项的线性回归迭代式及回归方程法求解式。
logistics回归中的正则化方法与线性回归相同。
总结
本章学习了正则项的使用方法。