利用Python进行数据分析案例

来自Bitly的usa.gov数据
1、数据说明:该数据是以json格式储存的,该数据集共有十八个维度,我在这里只做两个任务。
a. 对时区进行计数
b. 对windows以及非windows用户进行分组统计,并统计出在相同时区下Windows用户和非Windows用户的百分数占比。

#用pandas对其进行展示,并进行可视化。
import json
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

#读取json数据集并用图表格式显示
path = './datasets/bitly_usagov/example.txt'
records = [json.loads(line) for line in open(path)]
frame = pd.DataFrame(records)

#对时区进行计数(用panda 的value_counts函数进行计数)
#首先对数据进行预处理,我们可以先给记录中的未知或缺失的时区值填上一个替代值。
clean_tz = frame['tz'].fillna('Missing')
clean_tz[clean_tz == ''] = 'Unknown'
count = clean_tz.value_counts() #该函数对tz的各个元素进行计数并按降序进行排列
#取出前十名并进行可视化
tz_counts = count[:10]
sns.barplot
  • 3
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值