降低过拟合的方法:
1. 特征
减少不必要的特征
1) 根据特征的重要性,直接删除稀疏特征。
2) 通过收集更多的数据,或者用数据增广的方法,产生更多的训练数据;从而阻止模型学习不相关的特征。
2. 模型复杂度
降低模型复杂度
1)神经网络,减少网络层数和神经元个数
2)决策树模型中降低树的深度,进行剪枝
3. 正则化
加入正则化项并提高正则化项的系数。
1) 对复杂模型和系数比较大的模型进行惩罚,使得算法倾向于训练简单的模型。
4. 多模型决策
采用bagging 或者 stacking 的集成方法;将多个模型融合起来共同决策。以减少模型预测的variance.
5. 模型训练
训练模型时采用早停策略或采用知识蒸馏方法进行训练;使用dropout网络结构。
6. 数据目标
比如用于分类任务的标签平滑方法,即在One-hot 表示的ground true 标签里面,将值为1 的一小部分值减掉,均分到其他为0的位值上。
降低欠拟合的方法:
1. 特征
添加新特征
i. 比如上下文特征
ii. ID 类特征
iii. 组合特征等等
2. 模型复杂度
增加模型复杂度
i. 比如在线性模型中添加高次项。
ii. 在神经网络模型中增加网络层数或者神经元个数。
3. 正则化
减少正则化项的系数