最近新上手一些金融类机器学习项目,本篇记录项目中用到的。
项目主要分为5步,数据准备阶段、特征分析、数据清洗、特征分析、数据建模、模型验证。
1 数据准备
首先从需求入手,明确需要的 【数据业务范围和数据量】,然后开始搜集数据,并确认数据完整性
如果没有既定标签需要导入样本数据并依据一定规则,对样本数据进行打标
2 特征提取
有时间点的数据,明确观察点数量,单观察点或多个观察点。比如观察点是三个月,对多次建模对比,根据数据特征和评价指标,检查数据集存在的问题,并选取更合适的数据集训练的模型作为预测模型,尽量做到更趋向整体平均水平
3 数据清洗
数据清洗就是对空项、唯一率和缺失率、对需要特定归一化标准化处理
1、数据集划分
例如同一时段内的数据三七分
2、重复值处理
3、缺失值处理
发现缺失值方法:缺失个数、缺失率
补充方式:平均数、中位数、众数、0
3、异常值处理
4 数据建模
1、测试集与训练集划分
按自己的规则划分好了再加划分标识,或者使用交叉验证中常用的函数train_test_split,功能是从样本中随机的按比例选取train data和testdata
X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
2、模型训练与重要特征提取,提取后如有需要可返回特征工程分析,补充其他特征
3、根据重要特征进行模型训练
4、模型评价指标
5、模型优化
6、数据预测
7、持久化
(1)导出模型
(2)导出预测数据
5 模型验证