Python数据分析学习笔记(一)

来自bit.ly的1.usa.gov数据:


1.JSON数据:JavaScript Object Notation,一种轻量级的数据交换模式


入门的话推荐RUNOOB.COM的JSON教程,可以查看在线实例


2.分析文件


使用EditPluse打开发现一共3560条数据,每条数据的格式如图:



这是我使用EditpPlus查看出来的数据,那么怎么把它变换成Python中我们熟悉的字典格式呢?

Python中有许多内置或者第三方库可以将JSON字符串转化成字典对象,这里我们使用json模块对数据进行分析:


注意:

json字符串转化为字典有两种方法:json.load和 json.loads

json.load:接收的参数是文件对象,如open方法返回的对象

json.loads:接收json字符串



这句话的意思是:打开路径,读取路径中的每一行,将每一行的json字符串转化为字典对象,然后将这些字典保存在records数组里


3.分析数据

(1)数据中最常出现的时区是哪一个 'tz'字段

由于并不是每一行的数据都有时区字段,所以提取字段时要对每行数据进行判断


发现一共有3440行数据中有'tz'字段,我们得到并保存在了time_zones列表中

接下来使用pandas对时区进行计数


DataFrame将数据表示为一个表格


可以查看到表格的行数和列数

frame['tz']返回的Series方法有一个 value_counnts 方法,该方法可以统计出't'列的不同时区出现的次数,正好可以让我们得到我们所需要的信息


这里先取了十个时区出现的次数看一下


4.绘制统计图

使用 matplotlib生成图片

注意:1.3560条数据中只有3440条有‘tz’字段,而我们做统计图的时候这3560条是要全部包括的

  2.有的数据有‘tz’字段,但却没有值,这种数据我们也要考虑在内

解决办法:

1.对于没有‘tz’字段的数据,使用fillna函数替换缺失值 “Missing”

2.有字段没值(只有空字符串)的可以通过布尔型数组索引加以替换成“Unknow”


可以发现 没有时区字段的和有时区字段没值的数据都统计了出来,做到这一步就可以画图了


得到的图像如图:










  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值