1、正则化
2、样本不平衡问题
-
样本不平衡指的是分类任务中不同类别的训练样例数目相差很大的情况。通过解决样本不平衡,可以减少模型学习样本比例的先验信息,以获得能学习到辨别好坏本质特征的模型。
-
解决方法:
通过某种方法使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的。具体可以从数据样本、模型算法、目标函数、评估指标等方面进行优化。其中数据增强、代价敏感学习及采样+集成学习是比较常用的,效果也是比较明显的。1)样本层面:
上采样、降采样2)损失函数层面:
主流的方法为常用的代价敏感学习,为不同的分类错误给予不同惩罚力度(权重)。class weight为不同类别的样本提供不同的权重(少数类有更高的权重),从而模型可以平衡各类别的学习。3)模型层面:
选择一些对不均衡比较不敏感的模型。比如,对比逻辑回归模型(lr学习的全量训练样本的最小损失,自然会比较偏向去减少多数类样本造成的损失),决策树在不平衡数据上面表现相对好一些。4)评估指标方面:
对于类别不平衡下的模型评估,可以采用AUC来评估模型表现,AUC对样本的正负样本比例情况不敏感。而对于分类常用的precision、recall、F1、混淆矩阵对样本不平衡敏感。
3、如何处理缺失值:
均值填充、聚类填充等等
5、相关性(距离的定义)
6、baging、boosting、stacking(分层模型集成框架?)