python数据处理应做什么检查结果_福布斯系列之数据完整性检查 | Python数据分析项目实战...

ad0d62b73f58189efe7c9aa5141ae571.gif

deb8537b12c29f1b07af4c6664502d6f.png

用Python进行数据分析项目实战之福布斯系列文章,目前已发布的相关文章如下:

在上篇文章中,介绍了使用python爬取福布斯全球上市企业2000强排行榜(Forbes Global 2000)数据的思路和步骤。

在获取数据后,首先需要对获得的数据的完整性情况进行检查,主要查看数据是否有缺失、是否有重复、是否有数据错位或其他异常情况。

数据完整性检查也包括不同数据来源的对比,以及其他一些常识性的知识。

当然,在拿到数据的初期,其实只能做一个初步的判断,有些内容是在整个分析过程中发现的。

1 每年企业数量检查

福布斯全球上市企业2000强排行榜,企业数量应该是2000家,或者稍微多几家(因为排名可能相同,会增加少量企业)。

所以首先需要检查这个排行榜上每年的企业数量,如果明显多余2000家或者少于2000家企业,则说明获得的数据可能异常。

在使用Python分析时,可以用Pandas来进行检查,使用 DataFrame.shape就可以查看企业数量。

下面以2007年的数据为例来介绍。 代码如下

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值