Pandas数据加载、存储与文件格式处理学习笔记

简介

Pandas的重点就是两个数据结构series 以及DataFrame,pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。输入输出数据通常可以划分为以下几个大类:

  • 读取文本数据如csv,execl,txt等
  • 加载数据库中的数据
  • 利用webAPI操作网络资源

解析API说明

pandas中的解析函数有read_csv,read_table,read_fwf,read_clipboard.

read_csv

read_csv API官方说明

常用的参数说明:

参数说明
sep分隔符,比如’\s+‘’\r\t’
header表头,一般默认为None,header = None
names定义列名
index_col指定行索引
skiprows跳过
na_values指定空(NAN,NULL)
comment用于将注释信息从行尾拆分出去的字符
parse_dates尝试将数据解析为日期,默认为False.
date_parser用于解析日期的函数
nrows需要读取的行数
skip_footer需要忽略的行数

逐块读取文本文件

pd.read_csv('test.csv',sep=',',nrows=5) #指定行数,读取几行
pd.read_csv('test.csv',sep=',',chunksize=1000) #指定行数,分块读取

其他格式的文本数据的读取方式基本上一致。

header = 0 # 以第一行为头
df = pd.read_csv(infile,header=header)

获取文件size,shape,row,cols

len(df) #获取行数
len(df.columns)#获取列数
df.shape # 获取行数*列数 (289,9)

将读取的字段转为时间

date = str(pd.to_datetime(date, format='%Y/%m/%d'))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值