简介
Pandas的重点就是两个数据结构series 以及DataFrame,pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。输入输出数据通常可以划分为以下几个大类:
- 读取文本数据如csv,execl,txt等
- 加载数据库中的数据
- 利用webAPI操作网络资源
解析API说明
pandas中的解析函数有read_csv,read_table,read_fwf,read_clipboard.
read_csv
常用的参数说明:
参数 | 说明 |
---|---|
sep | 分隔符,比如’\s+‘’\r\t’ |
header | 表头,一般默认为None,header = None |
names | 定义列名 |
index_col | 指定行索引 |
skiprows | 跳过 |
na_values | 指定空(NAN,NULL) |
comment | 用于将注释信息从行尾拆分出去的字符 |
parse_dates | 尝试将数据解析为日期,默认为False. |
date_parser | 用于解析日期的函数 |
nrows | 需要读取的行数 |
skip_footer | 需要忽略的行数 |
逐块读取文本文件
pd.read_csv('test.csv',sep=',',nrows=5) #指定行数,读取几行
pd.read_csv('test.csv',sep=',',chunksize=1000) #指定行数,分块读取
其他格式的文本数据的读取方式基本上一致。
header = 0 # 以第一行为头
df = pd.read_csv(infile,header=header)
获取文件size,shape,row,cols
len(df) #获取行数
len(df.columns)#获取列数
df.shape # 获取行数*列数 (289,9)
将读取的字段转为时间
date = str(pd.to_datetime(date, format='%Y/%m/%d'))