pandas(https://pandas.pydata.org/)作为提供易操作的数据结构和数据分析工具,可以成为我们处理xls、csv等结构化数据时不错的帮手。
恰巧在昨天处理了一份csv数据,今天便花一些时间整理了如何利用Python批量读取csv文件为dataframe格式的数据。
#####第一步,导入包
import os
import glob
import pandas as pd
#####第二步,找到需要的所有csv文件
bigv_path = '/Users/Macbook/Desktop/competition0'
#由于多个文件的绝对路径和文件名称仅有数字之差,为读取全部文件,先提供共有路径如上
file_num = 0 #文件个数
bigv_filenames_all = []
for i in range(1,4):#一共三个文件
file_i = bigv_path + str(i)+'.csv' # 利用glob包寻找所有的csv文件
print(file_i)
filenames = glob.glob(file_i)
for j in filenames:
bigv_filenames_all.append(j)
file_num += len(filenames)
#####第三步,将所有csv文件读取为dataframe格式
bigv_ds = []
for k in enumerate(bigv_filenames_all):
bigv_ds.append(pd.read_csv(k, error_bad_lines=False,encoding='gb18030',engine='python'))
#tip:csv文件是中文,必须要进行编码encoding='gb18030'
data = pd.concat(bigv_ds)
len(data) #1505879,一共读取出150多万条信息