数据的加载数据的清洗数据的分割数据的特征工程算法对象构建算法模型训练算法模型效果评估 数据的特征工程 异常数据的处理数据不平衡处理文本处理:词袋法、TF-IDF多项式扩展、哑编码、标准化、归一化、区间缩放法、PCA、特征选择将均值、方差、协方差等信息作为特征属性,对特征属性进行对数转换、指数转换结合业务衍生出一些新的特征属性 数据的清洗 清洗异常样本数据:处理格式或者内容错误数、处理逻辑错误数据、处理不需要的数据、处理关联性验证错误的数据采样:数据不平衡、样本权重