昨天抓取的数据今天来搞一下

以昨天抓取的数据为例子,一窥python进行数据分析流程。当然,现实情况是:此次抓取的数据,数据量小、可用字段少。不过,只是以此为例,初探究竟。

首先,昨天我们抓取的数据是以json格式存储到文件中的。读取json文件,python的pandas可以大显身手,使用及其方便。


1. 读入数据


导入pandas这个package,直接调用pandas中的read_json方法。


通过head查看此数据框的第一行,由于字段较多,pandas只显示首尾部分,结果不再展示。


2. 清洗数据


  • 剔除重复项目

认为同一个wx_origin_id的是同一个微信号,所以要使用参数subset,否则会默认检查所有字段,只有两条数据所有字段的值都相等时,才算是重复数据。


以上代码的结果如下所示:


  • 检查空值


3. 描述性分析


比如可以看看预估粉丝量排名

mydata.sort_values('fans_num_estimate', ascending=False).head(10)['wx_alias']


mydata.sort_values('fans_num_estimate', ascending=False).head(10).loc[:,['wx_alias','fans_num_estimate']]



欢迎点击下方二维码,关注《数据分析师手记》,跟三月桑一起学习数据分析



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值