1 过拟合
什么是过拟合问题
什么是过拟合问题?顾名思义,就是模拟函数过度拟合训练集导致的问题,这会导致所得的函数过于庞大,变量过多,虽然很好的拟合了已有的数据,但是不能很好地预测新数据,不能泛化地适用于新样本,用图像表示这种情况:
以上的第一个函数出现了欠拟合的问题,第二个函数所得的结果相当不错,第三个函数用到了五个参数,变量的最高阶达到了四阶,表面上拟合了所有样本,但是这条曲线上下波动,犯了过拟合的错误。
解决过拟合问题
过拟合问题往往出现在变量较多而训练样本较少的情况下,解决方法通常有两种:
1,尽可能多的减少变量数量,但是同样舍弃了一部分问题的信息。
2,正则化,保留所有特征变量,但是相应的减少变量阶数或者调整模型参数 的大小,这种方法既消除了过拟合现象,同时充分利用了变量信息。
2 代价函数
上述函数中的 就是正则化项,他会控制每个参数的值,其中的 被称为正则化参数,它会动态调整拟合训练集和减小参数两个目的,使模型不至于出现过拟合现象,
3 线性回归正则化
1 梯度下降正则化
对上式进行化简得到:
上式中始终小于1,因此整个梯度下降过程在每次更新前都会将参数缩小,再进行梯度下降过程,但需要注意的是J始终是大于1的整数, 的更新公式不变。
2 正规方程正则化
如上即正规方程正则化后的表达式,另外,在正规方程的学习时,有一个前提 应当可逆,但是在上述公式中只要 大于零就一定可逆,因此回避了可逆与不可逆问题的讨论。
4 Logistic回归正则化
正则化后Logistic回归的代价函数为:
Logistic回归梯度下降算法正则化与线性回归正则化的关系与两者的梯度下降算法公式相同,Logistic回归梯度下降正则化公式与线性回归正则化相同:
这里同样要注意,两者的表达式虽然相同,但由于两者的假设函数不同所以是完全不同的两个公式,另外 同样不参与任何正则化。