过拟合 原因 样本数量太少,取样方法错误,样本标签错误包含噪声等,导致样本和想要实现的分类标准不匹配 解决方法 数据角度 数据增强 模型角度 降低模型复杂度(神经网络层数,树的深度) 模型对数据的依赖角度 正则化方法(L1,L2 提前停止,dropout,看验证集loss) 集成学习 权值衰减 小样本 深度学习中小样本学习,这个大佬总结得好 样本不均衡 10000正 1000负 解决方法 数据角度 过采样小样本、数据增强方法(GAN,添加噪声/颜色随机抖动,复制粘贴,小样本之间加权组合制造新样本) 欠采样大样本 调整数据的权值,大样本的权值降低 模型角度 bagging集成方法,将大样本分成很多份,分别和全部小样本训练,得到