金融类机器学习项目（待完成）

最新推荐文章于 2024-05-22 16:02:00 发布

flyf000

最新推荐文章于 2024-05-22 16:02:00 发布

阅读量166

点赞数 8

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/flyf000/article/details/128040455

版权

最近新上手一些金融类机器学习项目，本篇记录项目中用到的。

项目主要分为5步，数据准备阶段、特征分析、数据清洗、特征分析、数据建模、模型验证。

首先从需求入手，明确需要的【数据业务范围和数据量】，然后开始搜集数据，并确认数据完整性

如果没有既定标签需要导入样本数据并依据一定规则，对样本数据进行打标

有时间点的数据，明确观察点数量，单观察点或多个观察点。比如观察点是三个月，对多次建模对比，根据数据特征和评价指标，检查数据集存在的问题，并选取更合适的数据集训练的模型作为预测模型，尽量做到更趋向整体平均水平

数据清洗就是对空项、唯一率和缺失率、对需要特定归一化标准化处理
1、数据集划分

例如同一时段内的数据三七分

2、重复值处理

3、缺失值处理

发现缺失值方法：缺失个数、缺失率

补充方式：平均数、中位数、众数、0
3、异常值处理

1、测试集与训练集划分

按自己的规则划分好了再加划分标识，或者使用交叉验证中常用的函数train_test_split，功能是从样本中随机的按比例选取train data和testdata

X_train,X_test, y_train, y_test =
cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

2、模型训练与重要特征提取，提取后如有需要可返回特征工程分析，补充其他特征

3、根据重要特征进行模型训练

4、模型评价指标

5、模型优化

6、数据预测

7、持久化

（1）导出模型

（2）导出预测数据

5 模型验证

关注