清理数据_如何利用sql对数据进行清理?

本文介绍了如何使用SQL进行数据清理,以泰坦尼克号数据集为例。通过Navicat导入CSV文件后,检查数据完整性,处理NULL值,如用平均值填充年龄字段。对Cabin字段保持原样,因为删除记录会导致数据过少。使用高频值填充embarked字段。接着调整数据格式,并验证数据的合法性和唯一性。最后,将数据导入Excel进行可视化,揭示了性别与存活率的关系。
摘要由CSDN通过智能技术生成

数据来源:https://www.kaggle.com/c/titanic/data

一、数据集解释:

数据集里包含了泰坦尼克号上的乘客信息和存活指标,一共有两个csv文件,分别是test和train。后者用来进行数据分析和数据清理,并得出结论与模型,用该结论与模型来对前者进行存活率预测。当然这篇文章主要是讲解如何用sql进行数据清理。

具体字段意义如下:

bcd503260660bba2a65bce507f59edf0.png

二、数据清洗

首先我们利用navicat将csv表进行导入,导入后的情形如下:

6566eb865d7c94c56991e642778c4437.png

1. 完整性

紧接着我们来检查数据完整性,我们会发现数据中存在很多null值,对于这些null值一般有三种处理办法分别是插入平均值、插入高频值、删除记录。在进行这三种操作之前,我们先要查探每一个字段所包含的空值个数。当然你可能使用的方法是利用类似SELECT COUNT(*) FROM TABLE WHERE COLUMN IS NULL 的语句进行查询,但是当字段多了这种方法就显得效率低。对此,我们可以创建一个存储过程,使这件事情能够一步到位,具体操作如下:

e94c53c70cef4911c0e28e1e97d1abde.png

我们可以看到一共有10个结果集出现,然而事实是train这张表一共有12个字段,显然不对有缺少。这是因为navicat 本身最多显示10个结果集,于是我们使用cmd进行重复操作,得出结果如下。

5d523361f26f1a0a86118a9bf9aedc6c.png

fe03a728344916cbe2e8a42cfb9bf6c3.png

接下来我们分别对这些空值进行处理,针对年龄这一字段我们用均值替代空值,但如果你在主查询和子查询同时调用一张表就会报错,所以我们需要先创建一张同样的表再进行数据更新,具体操作如下。

269afab0b826370dce2722307e2d07b6.png

7dfa98e74627c3e46f76aefc25623c78.png

对于Cabin字段,我们发现空值个数有687而整张表有891行记录,但与此同时我们进行如下查询后发现剩余字段值个数与唯一值个数相差不大,此时用高频值进行替代显然不合理,又由于Cabin的意思是船舱,用平均值也不合理,那好像只剩最后一个办法删除记录,但这就更不合理,删完后数据所剩无几,所以我们做出的判断是维持原样不进行任何处理。

aa8bfa786e39cc72bda9636c90a28164.png

对于embarked字段,我们选择使用高频字段进行替代,具体操作如下。

90debea2022461e5facf5b153f07ea37.png

21d67df41a26ee4e58be72ad951c1136.png

2. 检查数据格式

由于是从csv表格里面进行导入,我们需要对每个字段的格式进行修改,也就是利用DDL语言更改表格定义

95429fc9c57246806a26a8263289a330.png

3. 检查合法性和唯一性

由于我们将passengerId设置为主键时没有错误提示,所以不存在重复性问题,同时现有这些数据也不存在合法性问题。

三、进行数据可视化

我们利用excel表中的mysql for excel功能将表格导入到excel中,如果你的电脑里没有相应功能,需要下载mysql-for-excel和mysql-connector-odbc这两个工具,成功之后结果如下。

5ef67f6c588f36720f98ff8687a58a5b.png

8906762821271a3ded2d9eafaefc8596.png

在这里我们简单分析一下性别与存活率之间的关系,进行数据可视化,发现男性死亡率远远高于女性,说明当时有很多男性牺牲了自己的性命来保护女性。

f921879a27058e5418a41b7eeb276599.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值