数据挖掘读书笔记 -- 常见数据处理技巧

本文探讨了数据预处理的重要性,包括数据抽样、规模分析、缺失值与异常值处理等,并介绍了特征选择的方法,如衍生变量生成、变量分布改善、数据标准化、相关性筛选及利用建模算法自身进行特征选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据抽取要正确反映业务需求

数据抽样

分析数据的规模有哪些具体要求

如果处理缺失值和异常值

数据转换:生成衍生变量(指标);改善变量分布的转换(取对数等);分箱转换;数据标准化(min-max标准化:x* = (x-min)/(max-min));

筛选有效的输入变量:根据业务先行筛选;根据相关性指标初步筛选(皮尔逊相关系数r);R平方(多元线性回归分析方法)筛选;卡方检验确定自变量与目标变量之间有比较强的关联性;IV和WOE(通过WOE的变化调整出最佳的分箱阈值,通过IV值或Gini分数筛选出较高预测价值的自变量);建模算法自身的筛选功能(决策树、回归);

共线性问题的发现(相关系数、主成分分析等)与处理;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值