数据研发学习笔记08:数据预处理

本文详细介绍了数据预处理的基本思想,包括数据规范化、数据离散化和数据清洗。数据规范化中讲解了最小-最大法和零均值规范化,数据离散化则涉及等距离和等频率分箱,以及基于熵和ChiMerge方法。数据清洗部分涵盖了处理缺失值和噪音数据的策略。最后,提到了特征提取与特征选择在数据分析中的重要性。
摘要由CSDN通过智能技术生成

1 数据预处理基本思想

  • 数据在搜集时由于各种原因可能存在缺失、错误、不一致等问题
  • 用于描述对象的数据有可能不能很好地反映潜在的模式
  • 描述对象的属性的数量可能有很多,有些属性是无用的或者冗余的

数据预处理的任务:
(1)数据规范化(normalization)
(2)数据离散化(discretization)
(3)数据清洗(data cleaning)
(4)特征提取与特征选择

2 数据规范化

数据规范化又称标准化(standardization),通过将属性的取值范围进行统一,避免不同的属性在数据分析的过程中具有不平等的地位。

常用方法如下:

2.1 最小-最大法(min-max normalization)

假设需要映射到目标区间为[L,R ]。原来的取值范围为[l, r ],则根据等比例映射的原理,一个值x映射到新区间后的值v的计算方法如下:
在这里插入图片描述
例如,对于描述客户的属性“年收入(万元)”,如果原来的取值范围为[3,200],新的取值范围为[0,1],则若某客户的年收入为60万元,规范化后为(60-3)/(200-3)=0.29

2.2 零均值规范化(z-score)

z-score,又称零均值规范化(zero-mean normalization)。给定一个属性 A,设其取值的均值为µA,标准差为ρA,A的某个取值x 规范化后的值v 计算如下:
在这里插入图片描述
均值为µA 和标准差为ρA 通过已有样本的属性值进行计算。规范化后的属性A取值的均值为零。

例如,年收入属性的均值为82,标准差为39,则年收入60万规范化后为-0.56

3 数据离散化

3.1 等距离&#x

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值