import pandas as pd #官网链接:https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html#pandas.read_excel # pandas.read_excel(io, sheet_name=0, *, header=0, names=None, # index_col=None, usecols=None, squeeze=None, dtype=None, # engine=None, converters=None, true_values=None, false_values=None, # skiprows=None, nrows=None, na_values=None, keep_default_na=True, # na_filter=True, verbose=False, parse_dates=False, date_parser=None, # thousands=None, decimal='.', comment=None, skipfooter=0, # convert_float=None, mangle_dupe_cols=True, storage_options=None) #io可以为本地路径,http、ftp路径等(需要依赖xlrd库),以及字节流等 #二进制流打开方式: # with open(r'D:\python\文档\testdoc\a.xlsx','rb') as f: # b = pd.read_excel(f,sheet_name=0) # #excelFile方式 # xls = pd.ExcelFile(r'D:\python\文档\testdoc\excel操作技巧(自制).xls') # c = pd.read_excel(xls,sheet_name=0) #excelFile方式,参数说明 #sheetname 默认0,可为字符串名字;可以为列表,如[0,1]或['Sheet1','Sheet2'],返回字典,{0:DataFrame...} #header 默认0为标题行,若无标题行可设置为None,如设置为3,则0-2行不会被读取,若设为None,则是0开始的数字行索引。 #index_col 指定列索引,默认为None,默认情况下是0开始的数字列索引 #usecols,指定读取的列,可为字符串,可用字母表示范围'A:D',可为int列表[0,1,2],可为函数(返回True) #nrows 返回读取的行数 #engine 指定处理引擎 #skiprows 跳过指定的行,list-like, int, or callable #skipfooterint, 跳过指定的行尾 #dtype 指定某些列的数据类型 dtype={'codes': str} or dtype={1: str} #converters 强制转换列数据类型 converters={'日期':str}, value值为转换函数,优先级高于dtype #na_filter 是否标记空值,默认为True,关闭可以提高性能,关闭后不会识别空值,关闭后keep_default_na及na_values自动失效 #keep_default_na 解析数据时是否包括默认NAN值,默认开启 #na_values scalar, str, list-like, or dict,指定哪些string会被识别为空值,na_filter及keep_default_na为True时有效. #parse_dates 尝试将数据解析为日期格式,{'时间':['年份','月份']};将会尝试解析年份和月份拼接起来,并将列名重置为‘时间’ #parse_dates=True : 尝试解析index为日期格式;parse_dates=[['年份','月份']] 或 parse_dates=[[3,4]],尝试将其解析并且拼接起来,拼接字符串放首列。 #parse_dates=[0,1,2,3,4] : 尝试解析0,1,2,3,4列为时间格式; #date_parser 指定解析格式去解析某种不常见的格式,如:date_parser=lambda x:pd.to_datetime(x,format=’%Y年%m月%d日’),需在parse_dates中指定需要转换时间的列 a = pd.read_excel(r'D:\python\文档\testdoc\c.xlsx',sheet_name=0,header=0,index_col=None, usecols='A:H',nrows=19,skiprows=[2,4],dtype={6: str},na_filter=True,keep_default_na=True, parse_dates=['日期2'],date_parser=lambda x:pd.to_datetime(x,format='%Y年%m月%d日'),convert_float=False) #通过url打开文件 headers = {"User-Agent": "pandas"} df = pd.read_csv( "https://download.bls.gov/pub/time.series/cu/cu.item", sep="\t", storage_options=headers )
pandas read_excel官网详解
于 2022-11-17 00:42:21 首次发布