数据挖掘基本流程

最新推荐文章于 2023-08-09 20:48:52 发布

qiu12345677

最新推荐文章于 2023-08-09 20:48:52 发布

阅读量318

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiu12345677/article/details/114915391

版权

一、数据预处理

获取数据
查看数据基本情况info()/head()/describe()
缺失值处理（删除/填充/承认缺失值存在）、异常值处理（删除/保留/处理到一定范围内）
类别型数据处理、时间型数据处理、转换变量类型、对数据进行分箱/分桶/离散化
分类建模，分析样本是否不均衡（过抽样，欠抽样/正负样本惩罚权重/组合集成处理）
对变量进行分析

二、特征工程

选择合适的特征进行数据标准化—树模型不需要进行标准化/归一化
对特征之间进行相关性分析/特征选择（卡方检验/模型筛选/移除低方差的特征/单变量特征选择/递归特征消除/基于L1的特征选择）/特征衍生，对特征与目标进行相关性分析选取重要特征（逻辑回归要求变量之间线性无关）

三、模型训练

选择对应特征作为模型特征值和目标值（无监督学习无目标值）
建立模型（是否有超参数需进行交叉验证/网格搜索），进行训练，得到结果

三、模型评估与优化

根据模型选择对应的评估方法
监督学习：
回归模型：均方根误差、相对平方误差、平均绝对误差、相对绝对误差、决定系数等
分类模型：准确率、精确率、召回率、F1-score、AUC指标等
无监督学习：
聚类模型：误差平方和、轮廓系数等
对模型进行调优（查看测试集与训练集评估结果是否过拟合）
如果是需要上线的模型，2-6个月内的数据不会用来训练模型，会用来做跨时间验证判断模型是否可上线
考虑是否需要模型融合

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘基本流程

一、数据预处理获取数据查看数据基本情况info()/head()/describe()缺失值处理（删除/填充/承认缺失值存在）、异常值处理（删除/保留/处理到一定范围内）类别型数据处理、时间型数据处理、转换变量类型、对数据进行分箱/分桶/离散化分类建模，分析样本是否不均衡（过抽样，欠抽样/正负样本惩罚权重/组合集成处理）对变量进行分析二、数据标准化选择合适的特征进行数据标准化对特征之间进行相关性分析，对特征与目标进行相关性分析三、模型训练选择对应特征作为模型特征值和目标值（无
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。