1、使用 pandas
读取 CSV
与 读取 xlsx
格式的 Excel
文件方法大致相同
data = pd.read_csv("×××××.csv")
data = pd.read_excel("×××××.xlsx")
2、读取指定位置下的文件
data=pd.read_csv("../××/××.csv") # ../表示返回至当前位置的上一级文件夹
3、读取文件前x行
data = pd.read_csv("××××.csv",nrows = ×)
4、读取文件跳过x-xx行
data = pd.read_csv("××××.csv",skiprows = [i for i in range(x,xx)])
5、读取文件偶数/奇数行
data = pd.read_csv('××××.csv', skiprows=lambda x: (x != 0) and not x % 2)
data = pd.read_csv('××××.csv', skiprows=lambda x: x % 2)
6、读取文件根据指定列号
data = pd.read_csv("××××.csv",usecols = [x1,x2,x3])
7、读取文件根据指定列名
data = pd.read_csv("××××.csv",usecols = ['××××','××××','××××'])
8、读取文件根据指定列名(指定的列名可能不在文件中)
usecols = ['××××', '××××', '××××', '××××', '××××']
data = pd.read_csv('××××.csv', usecols=lambda c: c in set(usecols))
9、读取文件并设置指定列为索引
data = pd.read_csv('××××.csv',index_col=['××××'])
10、读取文件指定列并重新设置标题
data = pd.read_csv('××××.csv', usecols=[x1,x2,x3],header = 0,names=['××××','××××','××××'])
11、读取文件时不标记缺失值为NA
data = pd.read_csv('xxxx.csv', keep_default_na=False)
12、读取文件并指定缺失值标记符号
data = pd.read_csv('xxxx.csv',na_values=['x'])
13、读取文件时不处理缺失值
data = pd.read_csv("xxxx.csv",na_filter=False)
14、读取文件并将指定列设置为指定格式
data = pd.read_csv("xxxx.csv", dtype={'xxxx': xx,'xxxx':xx})
data = pd.read_csv("xxxx.csv",parse_dates=['xxxx']) #转换为日期格式
15、每次读取文件指定行数,返回一个可迭代对象
data = pd.read_csv("xxxx.csv", chunksize= x)
16、读取txt文件
data = pd.read_table("xxxx.txt")
#含中文:
data = pd.read_table("xxxx.txt",encoding='gb18030')
data = pd.read_csv("xxxx.txt",encoding='gb18030',sep = '\t')
17、读取JSON文件
data = pd.read_json("xxxx.json")
18、读取HDF5文件
data = pd.read_hdf("xxxx.h5", "table")
19、从剪贴板读取数据
data = pd.read_clipboard()
20、从SQL读取指定表指定属性数据
pd.read_sql('SELECT xx, xx FROM xx', conn)
21、从指定网页读取数据
data = pd.read_html("xxxx")[0]
22、批量读取指定文件夹下的所有Excel文件
import os
path = 'xxxx/'
filesnames = os.listdir(path)
filesnames = [f for f in filesnames if f.lower().endswith(".xlsx")]
df_list = []
for filename in filesnames:
df_list.append(pd.read_excel(path + filename))
df = pd.concat(df_list)