文章目录
pandas_数据导入
1.导入.xlsx文件
电脑中的文件路径默认使用\
,这个时候需要在路径前面加一个r(转义符)
避免路径里面的\
被转义。也可以不加r,但是需要将里面所有的\
转换成/
,这个规则在导入其他格式文件时也是一样的。
df = pd.read_excel("C:/Users/utah/Desktop/data.xlsx")
print(df)
相关参数:
df = pd.read_excel('data.xlsx', sheet_name="Sheet", index_col=0, usecols=[0,2], header=0)
- sheet_name:指定具体sheet的名字,还可以传入sheet的顺序,从0开始计数。
如果不指定sheet_name参数时,那么默认导入的都是第一个sheet的文件。 - index_col:用.xlsx文件中的第几列做行索引,从0开始计数。
- usecols: 指定导入列,从0开始计数,也可以以列表的形式传入多个值[2,3,4]。
- header: 指定标题行(指定列索引),从0开始计数。
2.导入.csv文件
df = pd.read_csv(r"/Users/data.csv")
print (df)
相关参数
df = pd.read_csv(r"/Users/data.csv", sep=",", nrows=2, encoding="utf-8", engine="python")
- sep:指明分隔符号,不设置默认数据以逗号分开。
- nrows: 指明读取行数
- encoding:指明编码格式(gbk,utf-8),Python默认的编码格式就是UTF-8。
- engine:文件名中包含中文时,
engine = "python"
- 其他:.csv文件也涉及行、列索引设置及指定导入某列或者某几列,设定方法与导入.xlsx文件一致
3.导入.txt文件
使用read_table()
函数,read_table()
是将 利用分隔符分开数据的文件导入DataFrame的通用函数。
import pandas as pd
df1 = pd.read_table(r"C:\Users\data.txt",sep=" ")
print(df1)
df2 = pd.read_table(r"C:\Users\data.csv",sep=",")
print(df2)</