python数据清洗实例_python 数据清洗

最新推荐文章于 2024-04-13 01:27:19 发布

weixin_39779004

最新推荐文章于 2024-04-13 01:27:19 发布

阅读量978

点赞数

文章标签： python数据清洗实例

本文介绍了Python数据清洗的过程，包括删除重复数据、异常值检测和处理（如替换异常值）、数据映射（如地区编码转换）、数值变量类型化（如年龄分组）以及创建哑变量（如睡眠习惯转换）。通过心脏病患者数据实例，演示了如何使用Pandas进行数据清洗，涉及`drop_duplicates()`、`describe()`、`replace()`和`get_dummies()`等函数的使用。

摘要由CSDN通过智能技术生成

前言

1. 删除重复

2. 异常值监测

3. 替换

4. 数据映射

5. 数值变量类型化

6. 创建哑变量

统计师的Python日记【第7天：数据清洗（1）】

前言

根据我的Python学习计划：

Numpy → Pandas → 掌握一些数据清洗、规整、合并等功能 → 掌握类似与SQL的聚合等数据管理功能 → 能够用Python进行统计建模、假设检验等分析技能 → 能用Python打印出100元钱 → 能用Python帮我洗衣服、做饭 → 能用Python给我生小猴子......

上一篇的数据合并，以及本篇的数据清洗，都是非常非常实用的技能。我们用Python做数据分析，其实会有80%的功夫花在这些操作上面。我曾经去德国专门学过如何用做SAS数据清洗，数据清洗有一个专门的流程，涉及到数据缺失处理、变量值覆盖、日期时间数据、异常值、多选题数据处理、文本处理等等。日常项目中，可能随时用到这里面的某个技能，今天，就来学习一下Python的数据清洗吧！

现在有一份心脏病患者的数据，经过问卷调查之后，最终录入数据如下：

0?wx_fmt=png

Age：年龄

Areas：来自哪里，有A/B/C/D四个地区

ID：患者的唯一识别编号

Package：每天抽几包烟，缺失的为-9，代表不抽烟

SHabit：睡眠习惯，1-早睡早起；2-晚睡早起；3-早睡晚起；4-晚睡晚起

为了学习方便，假设这里就这些变量吧。

看完这个变量说明我不淡定了，这个数据存在很多问题啊！Age是年龄？158是什么鬼？？还有6岁小孩，每天抽1包烟？ID是唯一编号吗？为什么有3个1号、2个5号、2个9号、2个10号？

这个数据问题太多了，因此我要逐一来清洗一下，顺便学一下数据清洗方面的知识。

1. 删除重复

3个1号、2个5号、2个9号、2个10号。这是数据录入中经常出现的问题——重复录入了，所以首先我要把那么多占空间又没用的重复数据剔除。

介绍两个方法：data.duplicated()和 data.drop_duplicates()，前者标记出哪些是重复的（true），后者直接将重复删除。

0?wx_fmt=png

所以drop.duplicates直接就将重复值删除了，默认保留第一条。

以上是按照“有两行数据，这两行数据的所有变量值都一样，这么这两行就算重复数据”，但有时候我们会只根据一个变量来剔除重复，比如值根据Areas这个变量，那么A/B/C/D四个地区只会保留第一条，传入take_last=True则保留最后一个：

0?wx_fmt=png

A/B/C/D每个地区值保留一条数据了。

2. 异常值检测

在第一步剔除重复值之后。得到了无重复数据的data_noDup:

0?wx_fmt=png

第二步，我想检测一下数据中有没有异常值。首先可以用 describe() 进行一个描述分析，在第五天的学习中（第5天：Pandas，露两手）已经学过如何对数据进行描述：

0?wx_fmt=png

有两个变量值得我们注意，一个是age，最大值158、最小值6，肯定有问题，另一个是package，最小值是-9，存在缺失。

用 data[条件] 的方式可以看一下有多少age大于100、age小于10,、package为-9的：

0?wx_fmt=png

最低0.47元/天解锁文章

weixin_39779004

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python数据清洗实例_python 数据清洗

前言1. 删除重复2. 异常值监测3. 替换4. 数据映射5. 数值变量类型化6. 创建哑变量统计师的Python日记【第7天：数据清洗（1）】前言根据我的Python学习计划：Numpy → Pandas → 掌握一些数据清洗、规整、合并等功能 → 掌握类似与SQL的聚合等数据管理功能 → 能够用Python进行统计建模、假设检验等分析技能 → 能用Python打印出100元钱 → 能用Pyth...
复制链接

扫一扫