类别不平衡:假如样本中反例数目多,正例数目少 (西瓜书67页)
- 下采样(去除一些反例)
- 上采样(增加一些正例)
- 阈值移动(再缩放)
删除缺失值的行或者列
df.iloc[ 数字] 可以输出对应的行
iloc是按照index(也就是内部数据的行数)的序值. loc按照index的具体值
转换表的数据 (inplace=True代表更改源文件)
删除只有一种数值的无用特征列
查看每一列缺失值的总个数
样本不均衡(贷款案例)
- 调节正负样本权重参数
- 除了逻辑回归、随机森林可以尝试其他分类模型比如支持向量机或者Adaboosting
- 利用集成学习,使用多个模型
- 重新再处理特征,重新筛选特征
- 调整算法模型的参数