数据分析概述之数据的导入与导出

Excel文件有两种格式,分别为xls格式和xlsx格式。这两种格式的文件都可以用Python的Pandas模块的read_excel方法导入。read_excel方法返回的结果是DataFrame,DataFrame的一列对应着Excel的一列。

read_excel方法中的参数介绍如下:

(1)sheet_name参数:该参数用于指定导入Excel文件中的哪一个sheet,如果不填写这个参数,则默认导入第一个sheet。

(2) index_col参数:该参数用于指定表格的哪一列作为DataFrame的行索引,从0开始计数。

(3)nrows参数:该参数可以控制导入的行数,该参数在导入文件体积较大时比较有用。

(4)skipfooter参数:该参数可以在导入数据时,跳过表格底部的若干行。

(5)header参数:当使用Pandas的read_excel方法导入Excel文件时,默认表格的第一行为字段名。如果表格的第一段不是字段名,则需要使用该参数设置字段名。

(6)usecols参数:该参数可以控制导入Excel表格中的哪些列。

(7)names参数:该参数可以对导入数据的列名进行重命名。

导入CSV格式数据

CSV是一种用分隔符分割的文件格式。由于Excel文件在存放巨量数据时会占用极大空间,且导入时也存在占用极大内存的缺点,因此,巨量数据常采用CSV格式。

在Python中,导入CSV格式数据通过调用pandas模块的read_csv方法实现。read_csv方法的参数非常多,这里只对常用的参数进行介绍。

read_csv方法中的sep参数表示要导入的csv文件的分隔符,默认值是半角逗号。encoding参数用来指定CSV文件的编码,常用的有utf-8和 gbk。

导入JSON格式数据

JSON是一种轻量级的数据交换格式,容易阅读,也容易被机器扫描,在互联网应用中很常见。有时候从后台系统里导出来的数据就是JSON格式。

JSON文件实际存储的时一个JSON对象或者一个JSON数组。JSON对象是由多个键值对组成的,类似于Python的字典;JSON数组由多个JSON对象组成,类似于Python列表。

Pandas模块的read_json方法导入JSON数据,其中的参数为JSON文件的路径。

导入txt格式数据

当需要导入存在于txt文件中的数据时,可以使用pandas模块中的read_table方法

爬取网络表格类数据,pandas库read_html()方法。 ,查看代码中是否含有表格标签<table>…</table>的字样,确定后才可以使用read_html方法read_html方法常用参数说明如下:

io:字符串,文件路径,也可以是URL链接。网址不接受https,可以尝试去掉https中的s后爬取。

header:指定列标题所在的行。

index_col:指定行标题对应的列。

返回值:返回一个DataFrame对象。

1、CSV格式数据输出

【例】导入sales.csv文件中的前10行数据,并将其导出为sales_new.csv文件。

关键技术:pandas库的to_csv方法。

在该例中,首先通过pandas库的read_csv方法导入sales.csv文件的前10行数据,然后使用pandas库的to_csv方法将导入的数据输出为sales_new.csv文件。

path_or_buf:要保存的路径及文件名。

sep:分割符,默认为“,”。

columns:指定要输出的列,用列名,列表表示,默认值为None。

header:是否输出列名,默认值为True。

index:是否输出索引,默认值为True。

encoding:编码方式,默认值为“utf-8”。

:DataFrame对象的to_excel方法

sheet_name:字符串,默认值为“Sheet1”,指包含DataFrame数据的表的名称。

np_rep:字符串,默认值为 ‘ ’。指缺失数据的表示方式。

columes:序列,可选参数,要编辑的列。

header:布尔型或字符串列表,默认值为True。如果给定字符串列表,则表示它是列名称的别名。

index:布尔型,默认值为True,行名(索引)。

index_label:字符串或序列,默认值为None。如果文件数据使用多索引,则需使用序列。

encoding:指定Excel文件的编码方式,默认值为None

。将sales.xlsx文件中的前十行数据,导出到sales_new.xlsx文件中名为df1的sheet页中,将sales.xlsx文件中的后五行数据导出到sales_new.xlsx文件中名为df2的sheet页中。关键技术:Pandas库中的ExcelWriter方法。

解决该问题,首先在sales_new.xlsx文件中建立名为df1和df2的sheet页,然后使用pd.ExcelWriter方法打开sales_new.xlsx文件,再使用to_excel方法将数据导入到指定的sheet页中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值