数据研发学习笔记08：数据预处理

最新推荐文章于 2022-09-17 11:28:22 发布

Lynn Wen

最新推荐文章于 2022-09-17 11:28:22 发布

阅读量2k

点赞数 1

分类专栏：数据研发学习笔记数据分析学习总结笔记文章标签：大数据 python 人工智能数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41961559/article/details/106297822

版权

本文详细介绍了数据预处理的基本思想，包括数据规范化、数据离散化和数据清洗。数据规范化中讲解了最小-最大法和零均值规范化，数据离散化则涉及等距离和等频率分箱，以及基于熵和ChiMerge方法。数据清洗部分涵盖了处理缺失值和噪音数据的策略。最后，提到了特征提取与特征选择在数据分析中的重要性。

摘要由CSDN通过智能技术生成

文章目录

1 数据预处理基本思想
2 数据规范化
- 2.1 最小-最大法（min-max normalization）
- 2.2 零均值规范化（z-score）
3 数据离散化
4 数据清洗
- 4.1 处理缺失数据
- 4.2 处理噪音数据
5 特征提取与特征选择
- 5.1 特征提取
- 5.2 特征选择

1 数据预处理基本思想

数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题
用于描述对象的数据有可能不能很好地反映潜在的模式
描述对象的属性的数量可能有很多,有些属性是无用的或者冗余的

数据预处理的任务：
（1）数据规范化（normalization）
（2）数据离散化（discretization）
（3）数据清洗（data cleaning）
（4）特征提取与特征选择

2 数据规范化

数据规范化又称标准化（standardization），通过将属性的取值范围进行统一，避免不同的属性在数据分析的过程中具有不平等的地位。

常用方法如下：

2.1 最小-最大法（min-max normalization）

假设需要映射到目标区间为[L,R ]。原来的取值范围为[l, r ]，则根据等比例映射的原理，一个值x映射到新区间后的值v的计算方法如下：
在这里插入图片描述
例如，对于描述客户的属性“年收入（万元）”，如果原来的取值范围为[3，200]，新的取值范围为[0，1]，则若某客户的年收入为60万元，规范化后为(60-3)/(200-3)=0.29

2.2 零均值规范化（z-score）

z-score，又称零均值规范化（zero-mean normalization）。给定一个属性 A，设其取值的均值为µA，标准差为ρA，A的某个取值x 规范化后的值v 计算如下：
在这里插入图片描述
均值为µA 和标准差为ρA 通过已有样本的属性值进行计算。规范化后的属性A取值的均值为零。

例如，年收入属性的均值为82，标准差为39，则年收入60万规范化后为-0.56

3 数据离散化

3.1 等距离&#x

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
数据研发学习笔记08：数据预处理

文章目录1 数据预处理基本思想2 数据规范化2.1 最小-最大法（min-max normalization）2.2 零均值规范化（z-score）3 数据离散化3.1 等距离（equal- distance）分箱3.2 等频率（equal-frequency）分箱3.3 基于熵的离散化方法3.4 ChiMerge方法4 数据清洗4.1 处理缺失数据4.2 处理噪音数据5 特征提取与特征选择5.1 特征提取5.2 特征选择1 数据预处理基本思想数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。