本篇文章利用Python进行数据读取并熟悉数据。
一.数据源获取
https://www.citibikenyc.com/system-data
二.数据读取
数据读取常用的库及主要读取方法,如下图所示:
import pandas as pd
import glob
pd.read_csv #读取.csv文件
pd.read_excel #读取.xlsx/.xls文件
pd.read_table #读取.csv/text文件
#glob模块可以查找符合特定规则的文件路径名。
使用循环语句实现多数据表读取,如下图所示:
cb_all = pd.DataFrame()
for file in glob.glob('2015*.csv'):
df = pd.read_csv(file)
cb_all = cb_all.append(df,ignore_index=True)
三.熟悉数据
- 利用head预览前几行
- 利用shape获取数据表的大小
- 利用info查看数据类型
- 利用describe获取数值分布情况
如果数据量比较大,也可将汇总数据表的前10条数据存到exel,以便熟悉数据,如下图所示:
#将汇总数据表的前10条数据存到exel,以便熟悉数据
cb_all_10 = cb_all.iloc[0:10]
writer = pd.ExcelWriter('cb_all_10.xlsx', engine='xlsxwriter')
cb_all_10.to_excel(writer, 'Sheet1',index=0)
writer.save()
少量数据写入excel后,我们就可以通过打开excel的方式来有一个全局的观察,如下所示: