数据导入后对数据进行数据的分析和整理工作。好的数据清洗可以让未来的工作简单有效,对于未来的模型而言数据本身的质量决定了结果的上限,模型的选择和调优是不断趋近于这个上线的手段。
对于数据清洗而言首先应该对数据进行了解,了解数据的来源,通过来源可以对数据进行清洗和整理工作,
- 例如性别等字段可以将文字转化成向量等形式,同时可以对数据的空值等进行统计,根据数据的真实情况决定是否可以进行填补操作。
- 有的字段例如身高等字段需要通过分桶的技术将其进行类似降维处理。
- 时间字段根据实际情况可以进行多种变换,需要注意的是很多数据是字符串类型的,根据需要先要进行年月日的切分和转换。推荐pandas的date类型进行计算比较。
- 字符串的转换,例如地名等需要转换为数字形式,更多的是标签的转换。pandas-map()函数。
数据列的选取或者叫特征的选取
- 首先是根据现实的业务规范进行特征选取,因为现实的规范是日常经受过检验的特征选择,是经过相关学科验证后的知识。
- 其次根据已有的数据进行特征选取,已有数据主要是要看:一、数据的完整程度、二、数据于lable的关联性(相关性分析)参考https://zhuanlan.zhihu.com/p/94070722
- 特征的筛选可以通过xgboost等算法先训练一个基准模型,之后通过查看特征权重分布进行特征的选择