以昨天抓取的数据为例子,一窥python进行数据分析流程。当然,现实情况是:此次抓取的数据,数据量小、可用字段少。不过,只是以此为例,初探究竟。
首先,昨天我们抓取的数据是以json格式存储到文件中的。读取json文件,python的pandas可以大显身手,使用及其方便。
1. 读入数据
导入pandas这个package,直接调用pandas中的read_json方法。
通过head查看此数据框的第一行,由于字段较多,pandas只显示首尾部分,结果不再展示。
2. 清洗数据
-
剔除重复项目
认为同一个wx_origin_id的是同一个微信号,所以要使用参数subset,否则会默认检查所有字段,只有两条数据所有字段的值都相等时,才算是重复数据。
以上代码的结果如下所示:
-
检查空值
3. 描述性分析
比如可以看看预估粉丝量排名
mydata.sort_values('fans_num_estimate', ascending=False).head(10)['wx_alias']
mydata.sort_values('fans_num_estimate', ascending=False).head(10).loc[:,['wx_alias','fans_num_estimate']]
欢迎点击下方二维码,关注《数据分析师手记》,跟三月桑一起学习数据分析