观察数据集,正负样本是否均衡(看正负样本数据量是否差别过大)
不均衡:under sample(随机采样)或者over sample(利用imblearn中的SMOTE算法)
均衡:直接到下一步
- 观察缺失值,进行补全,要是标签缺失,直接drop
- 数据归一化处理
- 观察可以合并的数据集,将多个特征变为一个(例如特征里有公分和英尺)
- 离散数据进行one-hot编码
- 观察数据之间的联系,自己造有用的特征
- 将多余的特征清除,新造的特征拼接到一起
- 将数据分为训练集和测试集
- 选择合适模型
- 通过交叉验证选择模型所需的合适参数
- 选择合适的评测标准进行评测(recall、精度等)