走出数据泥沼：数据清理第0步

最新推荐文章于 2024-01-29 15:14:48 发布

Sun_Weiss

最新推荐文章于 2024-01-29 15:14:48 发布

阅读量170

点赞数 1

分类专栏： Python 数据分析文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sun_Weiss/article/details/111463219

版权

Python 同时被 2 个专栏收录

23 篇文章 2 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

走出数据泥沼

作为一个数据分析工作者，你在各种教科书和各种教程中，学会了各种各样的统计分析方法：从最一般的描述性统计，到差异检验、参数估计、相关回归，再到看起来很酷炫的各种建模方法、机器学习算法。

这些是很有用没错。

但是他们常常忘记了告诉你，所有这一切分析和有意义的结论，都是基于干净的、完整的、每个变量和个案都清清楚楚的数据实现的。

而你在实践中几乎不可能拿到这样的数据，你实际面对的数据多半充满了缺失值、错误值、重复值、乱七八糟的字符串、糟糕的格式……投入数据分析软件或程序中之后，只会收获各种报错，分析结果充满了不确定性。

有个说法说数据分析的工作中，80%的时间都是用来清理脏数据，这多半是真的。

在跟这样的脏数据搏斗了很多次之后，我终于决定坐下来理一理，让一份脏数据变干净，变得可以进行最终的分析，究竟需要做些什么？以及有哪些方法。

变量与个案

我们面对的数据基本上都是以表格的形式呈现：

每一列（column）是一个变量（variable），或者叫字段（field）；
每一行（row）是一个个案（case），或者叫记录（record）。

在这里，我会按照统计的一般习惯，称呼它们为“变量”和“个案”。
在这里插入图片描述

检查数据

在拿到一份数据后，要先粗略的检查这份数据，并明确以下问题：

（最好把每个问题的答案都记录下来）

1、数据来源

数据来源是哪？从哪里得到的？
这个数据源可靠吗？如果从数据中发现了问题，能够回溯回去吗？

2、取样范围和方式

When - 这批数据取样的时间范围是什么？
Where - 数据样本是从什么地方/平台获得的？
Who - 数据样本的对象/人群是什么？
How - 数据样本是用什么方式得到的？

3、样本量

样本量多大？符合你的需要吗？

4、变量

有哪些变量，它们的含义都是什么？
变量有明确的取值范围吗？如果有，是什么？
这些变量符合你的需要吗？

下一步，我们要对这些数据，做一个简单粗暴的描述性统计分析，以概括的了解数据全貌，并找出其中存在的问题。
走出数据泥沼：数据清理第1步——来个简单粗暴的描述性统计吧

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。