数据准备是机器学习的关键步骤。
大致可以分为以下步骤:
1.选择数据
这一步骤是选择可分析的业务数据的一个子集。
2.选择数据后就需要对数据进行预处理。
包含以下内容:
①格式化
转换成需要的形式
②清理
删除或者修复部分缺失的数据。
③采样
可能选择的数据比模型运行的要的数据要多,可以从选择的数据中选取有代表性的数据进行使用。
3.转换数据
①放缩
预处理后的数据可能有多种属性单位,比如千米,公斤等等。机器需要通常需要比较统一的范围,比如0-1
②分解
一些复杂的属性可能包含复杂的概念,不如时间可能包含日期和具体的时间,有可能时间是比较影响问题解决的。
③聚集(属性合并)
可能多个属性合成一个属性对解决问题有帮助,这个时候需要对属性进行合并。
参考:
https://machinelearningmastery.com/how-to-prepare-data-for-machine-learning/