pandas read_excel 参数及使用

pandas.read_excel(io, sheet_name…)

参数说明

  1. io: 文件路径
  2. sheet_name 列名,默认为0, 可以是数字/列名/list(数字、列名)
  3. header 标题行,默认第一行,可以是数字/list
  4. names 补充列名, names元素的个数必须和dataframe的列数一致,name=[0,1,2…]: 0,1,2将作为列名
  5. index_col 指定行索引, 默认None, 可以是数字/list
  6. usecols: 指定读取列,
    usecols=[1,2,3] # 读取2-4列
    usecols=None, #读取所有列
  7. squeeze: 如果源数据只有一列, squeeze=False为DataFrame,squeeze=True时为Series
  8. converters={
    ‘收入’ lambda x: x/100 # 收入除以100
    }
  9. skiprows: 省略指定行数据,第一行开始
  10. skipfooter: 省略指定行数据,最后一行开始
  11. dtype: dtype={
    ‘grade’: np.float32
    } # 读取为类型数据

使用

创建一个Excel文件
fakeExcel.xlsx

import pandas as pd
import numpy as np
# 指定索引列
pd.read_excel('./fakeExcel.xlsx', index_col=0) # 第0列作为标题

在这里插入图片描述

pd.read_excel('fakeExcel.xlsx',  header=0) # 指定表头行

在这里插入图片描述

# 指定读取格式转换
# 适合数据处理精度要求比较高或者速度要求比较快的情况
pd.read_excel('fakeExcel.xlsx', dtype={
  'grade': np.float32
}) # 指定表头列

在这里插入图片描述

# 自定义缺失值, 如年龄为负数时,清空,显示NAN
pd.read_excel('fakeExcel.xlsx', na_values={
  'title': 'aa'
})

在这里插入图片描述

# 处理注释行

pd.read_excel('fakeExcel.xlsx', sheet_name=1, comment='#')

在这里插入图片描述

# 列操作, 列减少2
data['grade'] = data['grade'] - 2
data

在这里插入图片描述

# 删除列:
# 改变内存数据
# 建议使用不改变内存的函数, 通过赋值修改原数据
if True:
  del data["a"]
# 不改变内存数据(返回新数据)
else:
  data = data.drop('a', axis=1)
data

在这里插入图片描述

# 重命令列
data.rename(columns={ 'grade': 'grade2' })
# 或者
data.columns = ['b', 'title', 'grade2']

在这里插入图片描述

# 保留指定的列
data[['title',	'grade']]

在这里插入图片描述

# 过滤数据
data[data['grade'] > 60]

在这里插入图片描述

data[data['title'] == 'bb']

在这里插入图片描述

# 值排序
data.sort_values('grade', ascending = True)

在这里插入图片描述

# names 参数的作用, 相当于rename
pd.read_excel('fakeExcel.xlsx', header=0, names=[0,1,2]) 

在这里插入图片描述

# 删除指定字符串的行

data.drop(data.index[(newData['line3'] == '--')], inplace=True) # inplace是否直接替换原数据
# 显示所有的行
pd.set_option('display.max_rows',None)
# 显示所有的列
pd.set_option('display.max_columns',None)
# 显示部分
pd_data.head()
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Pandasread_excel函数的常用参数有: - filepath_or_buffer: excel文件路径或文件名 - sheet_name: 要读取的excel sheet的名称或编号(默认读取第一个sheet) - header: 行号作为列名(默认为0) - skiprows: 跳过前几行(默认为0) - skipfooter: 跳过最后几行(默认为0) - index_col: 使用哪一列作为索引(默认为None) - names: 给列赋予新的名称(默认为None) - usecols: 使用哪些列(默认读取所有列) - engine: 使用的读取引擎(默认为'openpyxl', 可选'xlrd'或'xlwt') - converters: 转换某些特殊列的数据类型(默认为None) - true_values: 将特定值解释为True(默认为None) - false_values: 将特定值解释为False(默认为None) - na_values: 将特定值解释为NA/NaN(默认为None) - keep_default_na: 是否保留默认的NA/NaN值(默认为True) - verbose: 显示读取进度(默认为False) - parse_dates: 将哪些列解释为日期(默认为None) - date_parser: 日期解析函数(默认为None) - dayfirst: 是否默认将日期按照'DD/MM/YYYY'的格式解析(默认为False) - iterator: 是否使用迭代器读取文件(默认为False) - chunksize: 迭代器读取的块大小(默认为None) - compression: 压缩类型(默认为None, 可选'infer', 'gzip', 'bz2', 'zip', 'xz'等) - thousands: 千位分隔符(默认为None) - decimal: 小数点符号(默认为'.') - linetermin: 行结束符(默认为'\r\n') - quotechar: 引用符(默认为'"') - quoting: 引用模式(默认为csv.QUOTE_MINIMAL, 可选csv.QUOTE_ALL, csv.QUOTE_NONNUMERIC, csv.QUOTE_NONE) - doublequote: 是否将引用符内的引用符转义(默认为True) - escapechar: 转义符(默认为None) - comment: 注释符(默认为None) - encoding: 编码方式(默认为None, 可选'utf-8', 'cp1252'等) - dialect: 对话方式(默认为None, 可选csv.excel, csv.excel_tab等) - tupleize_cols: 是否将列转换为元组(默认为False) - error_bad_lines: 是否忽略读取过程中出现的错误(默认为True) - warn_bad_lines: 是否在出现错误时发出警告(默认为True) - skip_blank_lines: 是否跳过空行(默认为True) - keep_date_col: 是否保留原有的日期列(默认为True) - dayname: 是否包含星期名称(默认为False) - thousands: 千位分隔符(默认为',') - keep_default_na: 是否保留默认的NA/NaN值(默认为True) - na_filter: 是否过滤NA/NaN值(默认为True) - memory_map: 是否使用pandasread_excel()函数有许多可选参数。 常用参数如下: - `io`: 文件路径或者文件类型。 - `sheet_name`: 读取的工作表名称或编号。 - `header`: 用来作为列名的行号。 - `skiprows`: 跳过的行数。 - `index_col`: 作为索引的列编号。 - `usecols`: 选择读取的列。 - `nrows`: 读取的行数。 其他参数可以参考官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值