数据来源:https://www.kaggle.com/c/titanic/data
一、数据集解释:
数据集里包含了泰坦尼克号上的乘客信息和存活指标,一共有两个csv文件,分别是test和train。后者用来进行数据分析和数据清理,并得出结论与模型,用该结论与模型来对前者进行存活率预测。当然这篇文章主要是讲解如何用sql进行数据清理。
具体字段意义如下:
二、数据清洗
首先我们利用navicat将csv表进行导入,导入后的情形如下:
1. 完整性
紧接着我们来检查数据完整性,我们会发现数据中存在很多null值,对于这些null值一般有三种处理办法分别是插入平均值、插入高频值、删除记录。在进行这三种操作之前,我们先要查探每一个字段所包含的空值个数。当然你可能使用的方法是利用类似SELECT COUNT(*) FROM TABLE WHERE COLUMN IS NULL 的语句进行查询,但是当字段多了这种方法就显得效率低。对此,我们可以创建一个存储过程,使这件事情能够一步到位,具体操作如下:
我们可以看到一共有10个结果集出现,然而事实是train这张表一共有12个字段,显然不对有缺少。这是因为navicat 本身最多显示10个结果集,于是我们使用cmd进行重复操作,得出结果如下。
接下来我们分别对这些空值进行处理,针对年龄这一字段我们用均值替代空值,但如果你在主查询和子查询同时调用一张表就会报错,所以我们需要先创建一张同样的表再进行数据更新,具体操作如下。
对于Cabin字段,我们发现空值个数有687而整张表有891行记录,但与此同时我们进行如下查询后发现剩余字段值个数与唯一值个数相差不大,此时用高频值进行替代显然不合理,又由于Cabin的意思是船舱,用平均值也不合理,那好像只剩最后一个办法删除记录,但这就更不合理,删完后数据所剩无几,所以我们做出的判断是维持原样不进行任何处理。
对于embarked字段,我们选择使用高频字段进行替代,具体操作如下。
2. 检查数据格式
由于是从csv表格里面进行导入,我们需要对每个字段的格式进行修改,也就是利用DDL语言更改表格定义
3. 检查合法性和唯一性
由于我们将passengerId设置为主键时没有错误提示,所以不存在重复性问题,同时现有这些数据也不存在合法性问题。
三、进行数据可视化
我们利用excel表中的mysql for excel功能将表格导入到excel中,如果你的电脑里没有相应功能,需要下载mysql-for-excel和mysql-connector-odbc这两个工具,成功之后结果如下。
在这里我们简单分析一下性别与存活率之间的关系,进行数据可视化,发现男性死亡率远远高于女性,说明当时有很多男性牺牲了自己的性命来保护女性。