数据挖掘建模---1.数据预处理

最新推荐文章于 2024-08-18 10:50:34 发布

冲出天际的王海燕

最新推荐文章于 2024-08-18 10:50:34 发布

阅读量2k

点赞数 1

分类专栏：数据挖掘建模文章标签：数据挖掘机器学习数据分析 python 人工智能

本文链接：https://blog.csdn.net/weixin_41733815/article/details/106287249

版权

在数据挖掘建模中，数据预处理是关键步骤，包括缺失值处理、异常值检测和重复值检查。对于缺失值，可以选择删除、统计填充或预测模型填充。异常值的处理对模型质量至关重要，而重复值可能会影响分析结果，需要进行识别并删除。预处理阶段还包括特征列的数值映射转换，以适应模型需求。

摘要由CSDN通过智能技术生成

建模过程

1.数据集预处理：数据集验证、目标特征提取
2.EDA探索性数据分析
3.特征工程
4.构造训练集/测试集
5.模型设计

1.数据挖掘建模-数据预处理

特征工程前需要对拿到手的数据进行预处理，特征的来源有两方面一种是已有的特征数据，只需要找出适合模型需要特征；另一种是从业务特征中自己找出高级数据特征。

1.1缺失值

有缺失值列会影响模型质量，拿到数据后通常会先预处理数据集，当查看拿到手的数据集df_train.head()/df_train.shape/df_train.describe()/df_train.info(),
A.删缺失值多（无用）特征
1.对于缺失值较多的列可以提供给模型信息有限，可以舍弃该列属性。

half_count = len(loans_2020)/2
loans_2020 = loans_2020.dropna(thresh=half_count,axis=1)#剔除

空白值超过一半的列，thresh：剔除
2.特征列中空值较多且属性值少（1个或2个），对模型用处不大，剔除

orig_columns = loans_2020.columns 
drop_columns = [] #初始化空值
for col in orig_columns:
    col_series = loans_2020[col].dropna(

最低0.47元/天解锁文章

冲出天际的王海燕

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录