过拟合
一个假设在训练数据上,能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据,此事认为这个模型出现了过拟合现象(模型过于复杂)
原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点
解决办法:
- 进行特征 选择,消除关联性大的特征(很难做)
- 交叉验证(让所有数据都有过训练)
- 正则化
欠拟合
一个假设在训练集上不能获得更好的拟合,但是在训练数据集以外的数据集上也不能更好的拟合数据,此时我们认为这个假设出现欠拟合现象(模型过于简单)
- 原因:学习的数据特征太少
- 解决办法:增加数据的特征数量
带有正则化的线性回归-Ridge 玲回归
- sklearn.linear_model.Ridge
- sklearn.linear_model.Ridge(alpha=1.0)
- 具有l2正则化的线性最小二乘法
- alpha:正则化力度 0~1之间 或者1 ~10
- coef_:回归系数
线性回归LinearRegression与玲回归对比
岭回归:回归得到的回归系数更符合实例,更可靠,另外能让估计参数的波动范围变小,变的更稳定,在存在病态数据偏多的研究中有较大的实用价值