一、直接读取.xlsx文件
import pandas as pd
df = pd.read_excel('Data.xlsx')
在读取数据时,可把excel文件保存在用Pycharm建立的工程目录下,如上所示,此种情况不需要添加文件的路径信息,直接读取即可。
在读取数据时,也可指定文件的路径进行数读取。电脑里的文件路径默认使用\,这个时候需要在路径前边加一个转义字符r,也可以不加r,但需要把\换成/,如下所示。
import pandas as pd
df = pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx")
#df = pd.read_excel("C:/Users/Owen/Desktop/Data.xlsx")
print (df)
读取指定Excel文件的子表
.xlsx格式的文件可以有多个sheet,可以通过sheetname参数指定要导入哪个sheet文件。
df = pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx",sheetname="Sheet1")
除了可以指定具体Sheet的名字,还可以传入Sheet的顺序,从0开始计数。如果不指定sheet_name参数时,那么默认导入的都是第一个Sheet的文件。
二、指定行索引
将本地文件导入DataFrame时,行索引使用的从0开始的默认索引,可以通过设置index_col参数来设置。
index_col表示用.xlsx文件中的第几列做行索引,从0开始计数。
df=pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx",sheetname="Sheet1",index_col=0)
三、指定列索引
将本地文件导入DataFrame时,默认使用源数据表的第一行作为列索引,也可以通过设置header参数来设置列索引。header参数值默认为0,即用第一行作为列索引;也可以是其他行,只需要传入具体的那一行即可。
#使用第一行作为列索引
df=pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx",sheetname="Sheet1",header=0
#使用第二行作为列索引
df=pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx",sheetname="Sheet1",header=1)
四、指定导入列
有的时候本地文件的列数太多,而我们又不需要那么多列时,我们就可以通过设定usecols参数来指定要导入的列。
df=pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx",sheetname="Sheet1",usecols=[0])
df=pd.read_excel(r"C:\Users\Owen\Desktop\Data.xlsx",sheetname="Sheet1",usecols=[0,2])
五、其他文件读取方式
5.1 读取.csv文件
df = pd.read_csv(r"C:\Users\Owen\Desktop\Data.csv")
5.2 读取txt文件
df = pd.read_table(r"C:\Users\Owen\Desktop\Data.txt")
5.3 读取sql文件
第1步,将python与数据库进行连接
第2步,利用python执行sql查询语句
在目前的学习过程中,.xlsx文件用的较多,本篇以读取.xlsx文件为主,其他几种方法在后续用到时会进一步讲解。
编译环境:PyCharm Community Edition 2017.2.1 + Anaconda3
部分内容来源于《对比Excel,轻松学习Python数据分析》,本文为读书笔记,分享给有需要的人。