利用python进行数据分析学习笔记1(数据加载,存储与文件格式)

本文介绍了Python进行数据分析时如何处理不同格式的数据,包括读写CSV、处理分隔符文件、JSON数据、XML/HTML、二进制格式如pickle和HDF5,以及Excel和数据库交互。通过pandas库的各种方法,如read_csv、to_csv、read_html等,展示了如何高效地进行数据操作。
摘要由CSDN通过智能技术生成

读写文本格式的数据


将工作目录下的一个csv文件读入一个DataFrame中

df = pd.read_csv('examples/ex1.csv')

也可以是哟个read_table方法,并指定分隔符

pd.read_table('examples/ex1.csv',sep=',')

有些数据文件没有标题行,如果直接读取,会将第一行默认设置为标题行,传入header=None参数可以避免。

pd.read_csv('examples/ex2.csv')    #将第一行设置为标题行
pd.read_csv('examples/ex2.csv',header=None)


也可以通过name参数手动设定标题行。

pd.read_csv('examples/ex2.csv',names=['a','b','c','d','message'])


通过index_col参数可以将源数据的某列设置为行索引列。

names = ['a','b','c','d','message']
pd.read_csv('examples/ex2.csv',names=names,index_col = 'message')

将names列表设置为标题行,index_col参数将message列设置为行索引列。


可以设置多个列为行索引列,做成层次化索引。

parsed = pd.read_csv('examples/csv_mindex.csv',index_col=['key1','key2'])

设置key1和key2两层索引


有些表格可能不是用固定的分隔符来分隔字段的。

list(open('examples/ex3.txt'))

上面的文件中的数据使用数量不同的空白字符间隔开的,可以传入一个正则表达式作为分隔符。

result = pd.read_table('examples/ex3.txt',sep='\s+')

有时数据文件中不一定全都是数据。

比如这个数据文间的0、2、3行都是注释


通过skiprows参数可以跳过数据文件的指定行。

pd.read_csv('examples/ex4.csv',skiprows=[0,2,3])

读取的数据文件中可能会存在缺失值。

result = pd.read_csv('examples/ex5.csv')

使用isnull方法可以返回一个布尔型DataFrame,缺失值会显示为True。


据说na_values参数可以设置不同的标记值来表示缺失值

result = pd.read_csv('examples/ex5.csv', na_values=['test'])

实际好像没什么卵用。

将各列的缺失值用不同的NA标记值。

sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值