介绍
案例来着《从Excel到Python——数据分析进阶指南》,作者:王彦平
根据此书中,990万次骑行案例,进行实际操作。代码与笔记如下。
案例
一,数据来源
案例数据来着花旗单车Citi Bike,此案例中数据选自2015年全年数据。下载解压到同一文件夹中。
二,分析数据
导入所需包,后期可能会增加。
import numpy as np
import pandas as pd
import time, datetime
import matplotlib.pyplot as plt
首先导入1月份数据
cb1 = pd.DataFrame(pd.read_csv('201501-citibike-tripdata.csv'))
将其他月份数据导入,汇总。
a = ['02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12']
for i in a:
cb2 = pd.DataFrame(pd.read_csv('2015{}-citibike-tripdata.csv'.format(i)))
cb1 = cb1.append(cb2, ignore_index=True)
print(cb2.shape, cb1.shape)
记:因为文章中没有仔细的步骤,所以我按照自己的方法导入了数据,在append这部分上产生了疑惑,因为我之前的代码是cb = cb1.append(cb2, ignore_index=True),后期发现cb的值有问题,而且一直没有找到原因所在,我以为append在我的每次遍历的时候都是自动添加的,可是最后的数据却不是,后来百度了一下,发现应该改为cb1 = cb1.append(cb2, ignore_index=True),这样才会在原数据上增加。
唯一租赁点数量计数
唯一自行车ID计数