数据分析入门2-数据处理

数据预处理是数据分析的关键步骤,尤其是处理数据缺失和异常值。对于缺失值,常见处理方法包括丢弃、补全(如统计法、模型法、专家补全和其他方法)、真值转换法以及不处理。异常数据则需区分伪异常和真异常,某些情况下不应轻易抛弃,而应考虑其业务意义或在异常检测模型中的作用。
摘要由CSDN通过智能技术生成

2.1数据预处理

数据预处理占到60%, 数据清洗、数据集成(属性冗余问题),数据变换、数据规约。

数据清洗主要包括:缺失值处理(均值、中位数、众数插补,最近临插补、回归方法、插值法)、异常值处理(删除、视为缺失值、平均值修正)。

2.1.1 数据列缺失的4种处理方法

       数据缺失分为两种:一是行记录的缺失,这种情况又称数据记录丢失;二是数据列值的缺失,即由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果也不同,例如,数据库中是NullPythonNonePandasNumpy中是NaN

      在极少数情况下,部分缺失值也会使用空字符串来代替,但空字符串绝对不同于缺失值。从对象的实体来看,空字符串是有实体的,实体为字符串类型;而缺失值其实没有实体的,即没有数据类型。丢失的数据记录通常无法找回,这里重点讨论数据列类型缺失值的处理,通常有四种思路:

1.丢弃

这种方法简单明了,直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),减少缺失数据记录对总体数据的影响。但丢弃 意味着会消减数据特征,以下任意一种场景都不宜采用该方法:

  • 数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。
  • 带有缺
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值