数据挖掘建模---1.数据预处理

在数据挖掘建模中,数据预处理是关键步骤,包括缺失值处理、异常值检测和重复值检查。对于缺失值,可以选择删除、统计填充或预测模型填充。异常值的处理对模型质量至关重要,而重复值可能会影响分析结果,需要进行识别并删除。预处理阶段还包括特征列的数值映射转换,以适应模型需求。
摘要由CSDN通过智能技术生成

建模过程

1.数据集预处理:数据集验证、目标特征提取
2.EDA探索性数据分析
3.特征工程
4.构造训练集/测试集
5.模型设计

1.数据挖掘建模-数据预处理

特征工程前需要对拿到手的数据进行预处理,特征的来源有两方面一种是已有的特征数据,只需要找出适合模型需要特征;另一种是从业务特征中自己找出高级数据特征。

1.1缺失值

有缺失值列会影响模型质量,拿到数据后通常会先预处理数据集,当查看拿到手的数据集df_train.head()/df_train.shape/df_train.describe()/df_train.info(),
A.删缺失值多(无用)特征
1.对于缺失值较多的列可以提供给模型信息有限,可以舍弃该列属性。

half_count = len(loans_2020)/2
loans_2020 = loans_2020.dropna(thresh=half_count,axis=1)#剔除

空白值超过一半的列,thresh:剔除
2.特征列中空值较多且属性值少(1个或2个),对模型用处不大,剔除

orig_columns = loans_2020.columns 
drop_columns = [] #初始化空值
for col in orig_columns:
    col_series = loans_2020[col].dropna(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值