过拟合问题
- 过拟合一般在参数个数多余样本的个数的时候,可以使得代价函数趋近于0,以至于覆盖所有的样本,从而过拟合,但是这样的曲线不能实现好的预测(泛化能力较差)
- 解决过拟合问题的方法:a) 一维或者二维的数据时候,可以先画图,再自己判断选择合适的多项式阶数; b-1) 维数多时,减少特征数量,从而达到减少参数的数量的目的; b-2):应用模型选择算法,它将会自动删除某些特征; c) 正则化,保留所有的特征,减小参数(theta),以至于某一个特征在预测y的时候作用变小。
正则化思想后的代价函数
- 正则化思想:让相关性小的特征的参数数值更小,使得曲线更平滑更简单,从而防止过拟合问题比如趋近于0,则会得到近似的低阶函数。
- λ设置过大的话,会导致惩罚过大(10 ^ 10),于是会使得除theta_0之外的参数都趋近于0,造成欠拟合现象, 所以要选择合适大小的λ。
线性回归的正则化应用
- alpha一般很大,m也是很大,所以(1 - alpha * lamda / m)是非常小的
- 正则化——正规方程法线性回归时候的解
- 只要λ大于零,就可以解决之前说的奇异矩阵问题,就是矩阵不可逆时的问题!!
逻辑回归的正则化应用
- 正则化-逻辑回归的-梯度下降算法:注意这里的假设函数与线性回归不一样呦!
- 正则化-逻辑回归的-高级优化算法: