python 数据清洗 豆瓣电影_python--数据清洗

本文探讨了数据清洗的重要性和不同处理方法,包括处理数据错误、缺失值、离群值。针对豆瓣电影数据,作者展示了如何利用Python进行数据清洗,包括删除重复值、异常值处理、数据映射、数值变量类型化以及创建哑变量。通过实例讲解了如何解决年龄、地区等变量存在的问题,以便进一步的数据分析。
摘要由CSDN通过智能技术生成

1.数据错误:

错误类型

– 脏数据或错误数据

• 比如, Age = -2003

– 数据不正确

• ‘0’ 代表真实的0,还是代表缺失

– 数据不一致

• 比如收入单位是万元,利润单位是元,或者一个单位是

美元,一个是人民币

– 数据重复

2.缺失值处理:

处理原则

–缺失值少于20%

•连续变量使用均值或中位数填补

•分类变量不需要填补,单算一类即可,或者用众数填补

–缺失值在20%-80%

•填补方法同上

•另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模

–缺失值在大于80%

•每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不使用。

3.离群值

3.1单变量离群值处理:

.绘图。

在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者不明显。

学生化(标准化)

•用变量除以他们的标准误就可得到学生化数值

建议的临界值:

–|SR| >2 ,用于观察值较少的数据集

–|SR| >3,用于观察值较多的数据集

3.2多变量离群值

1.绘图。

在图中找出明显的离群值

2.聚类法确定离群值(不要对原有数据进行改变)

聚类效果评判指标:(群内方差(距离)最小化,群间方差(距离)最大化;这里方差可以理解为一种距离(欧式距离的平方—欧式距离))

了解清洗后,接下来,就来学习一下Python的数据清洗吧!

现在有一份心脏病患者的数据,经过问卷调查之后,最终录入数据如下:

Age:年龄

Areas:来自哪里,有A/B/C/D四个地区

ID:患者的唯一识别编号

Package:每天

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值