上一期对于pandas的数据结构以及基本的增查删改进行了简单的介绍,这一期接着利用pandas进行读写文件。
1.读取文件
利用pandas读取文件主要用到的函数是read_xx(),读取后数据结构为dataframe,接下来对read_xx()进行一一讲解。
1.1 excel文件
pd.read_excel()可以用来读取excel文件,主要涉及到的参数有:
(1)sheet_name: excel文件中的表名
(2)index_col: 使用哪一列作为行索引,默认从0开始
(4)usecols: 读取表格中哪几列,必须是位置索引
(5)header: 哪一行设置为列索引,默认是第一行,即header = 0
(6)date_parser:解析日期的函数
(7)parse_dates:尝试将数据解析为日期,默认为False。如果为True,则尝试解析所有列。此外,还可以指定需要解析的一组列号或者列名
(8)names: 列索引
(9)engine: 默认是C,如文件路径存在中文时,engine= "python"
(10)encoding: 默认是utf-8,还可以是gbk
(11)skiprows: 跳过前几行读取文件,默认从0开始
(12)nrows: 读取多少行数据
(13) converters: 列名跟函数之间的映射关系组成的字典
import pandas as pd
df = pd.read_excel(r"D:迅雷下载示例.xlsx",sheet_nam = 0,index_col = 0,nrows = 5)
print(df)
性别 年龄 省内省外 消费金额 贷款与否
用户id
1 男 60 1 311.0 0
2 NaN 25 1 220.0 1
3 男 47 1 246.0 0
4 女 52 0 NaN 0
5 女 21 0 916.0 0
sheet_name用来指定读取文件中哪个表格,可以是表格的名字或者是表格所在的位置,默认从0开始;
index_col指定用哪一列作为行索引,可以是具体的列名,也可以是列的位置索引,默认从0开始;
nrows就不用多说了,只读取多少行,为了方便查看数据的结构,示例只读取5行。
df = pd.read_excel(r"D:迅雷下载示例.xlsx",index_col = "用户id",usecols = [0,1,2,4,5],nrows = 5)
print(df)
性别 年龄 消费金额