数据载入、存储及文件格式(数据分析)

本文详细介绍了数据分析中数据的载入与存储,包括文本格式(如CSV、JSON)的读写,二进制格式(如HDF5、Excel)的处理,以及如何与WEB API和数据库交互。重点讲解了pandas库在数据读写中的功能,如分块读取、JSON数据处理和HDF5存储。
摘要由CSDN通过智能技术生成

目录

第6章 数据载入、存储及文件格式

6.1 文本格式数据的读写

6.1.1 分块读入文本文件

6.1.2 将数据写入文本格式

6.1.3 使用分隔格式

6.1.4 JSON数据

6.2 二进制格式

6.2.1 使用HDF5格式

6.2.2 读取Microsoft Excel文件

6.3 与WEB API交互

6.4 与数据库交互


第6章 数据载入、存储及文件格式

输入和输出通常有以下几种类型:

· 读取文本文件及硬盘上其他更高效的格式文件;

·从数据库载入数据;

·与网络资源进行交互(比如Web API)。

6.1 文本格式数据的读写

将表格型数据读取为DataFrame对象是pandas的重要特性。如下是pandas的解析函数:

使用read_csv将一个csv文件读入一个DataFrame:

如果原csv文件以逗号分隔,那么也可以使用read_table,并指定分隔符:

pd.read_table('D:\AHUT-STU\instacart-market-basket-analysis\products.csv',sep=',')

对于不包含表头行的文件,可以允许pandas自动分配默认列名,也可以自动指定列名:


pd.read_csv('D:\AHUT-STU\instacart-market-basket-analysis\products.csv',names=[0,1,2,3,4,5])

想要某一列的值成为返回DataFrame的索引,你可以指定列的位置为索引,或将’列名’传给参数index_col:

names=[0,1,2,3,4,5]
pd.read_csv('products.csv',names=names,index_col='列名或者列所在位置比如位置4')

当想要从多个列中形成一个分层索引,需要传入一个包含列序号或列名的列表:

在某些情况下,一张表的分隔符并不是固定的,使用空白或其他方式来分隔字段。考虑如下文本文件:

当字段是以多种不同数量的空格分开时,可以手工处理,但在这些情况下也可以向read_table传入一个正则表达式作为分隔符。在本例中,正则表达式为\s+,因此可以得到:

可以使用skiprows来跳过第一行、第三行和第四行:

缺失值处理是文件解析过程中一个重要且常常微妙的部分。通常情况下,缺失值要么不显示(空字符串),要么用一些标识值。默认情况下,pandas使用一些常见的标识,例如NA和NULL:

na_values选项可以传入一个列表或一组字符串来处理缺失值:

在字典中,每列可以指定不同的缺失值标识:

 pandas.read_csv和pandas.read_table中常用的选项如下:

6.1.1 分块读入文本文件

读取一小部分行(避免读取整个文件),可以指明nrows:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值