之前写过一篇文章分享Python如何快速合并CSV文件。但是有几个不好的地方:1.CSV文件必须放在指定的文件夹下;2,输出的文件名为固定的名字;3.每次都看到一大堆的代码。今天进一步升级,将其封装成自定义函数,提高使用的自由度。
直接来定义函数的代码:
def DavidCSV(csvfileAddress,ExcelName): #自定义函数名DavidCSV,并设定两个参数(调用的时候输入的值) import pandas as pd #导入Pandas库 import numpy as np #导入Numpy库 from pandas import Series,DataFrame #导入Series,DataFrame两个库 import os #导入OS库 ExcelName=str(ExcelName+'.xlsx') #生成带格式的Excel文件名为最后存取数据做准备 if os.path.exists(csvfileAddress): #检查提供的CSV存储路径是否有效 data_list = [] #创建列表,用于临时存储读取的每一个csv文件数据,可以理解为数据中继站 for csv_name in os.listdir(csvfileAddress):#遍历指定文件夹下的所有CSV文件 path = os.path.join(csvfileAddress,csv_name)#拼接路径和读取的csv文件名,产生带文件名的路径 data = pd.read_csv(path) #用上一步产生带文件名的路径读取csv文件数据,并用data变量临时存储 data_list.append(data) #用前面创建的空列表依此接纳每次读取的csv数据,并以列表的形式存储 data_end = pd.concat(data_list)#将存储在list中的csv数据拼接并用data_end来接收 data_end.to_excel(ExcelName,index=False)#data_end来接收到的数据转成为指定名字的Excel文件print("Job done")
说好的一行代码,为啥这么多行? 自定义函数一旦写好,调用的时候其实就不用写这么一堆代码。如下,使用的时候只需要写函数名字DavidCSV(,)并在括号中传两个值给这个函数即可,第一个参数'CSV'是你存放CSV文件的文件夹的名字,第二个参数'David'为你想存储的Excel名字。两个参数都可以根据自己特定的情况来输入。
DavidCSV('CSV','David') #函数调用
本例CSV文件下存放需要提取数据的所有CSV文件,并将python脚本和CSV文件放在一个目录下。
本例CSV文件下存放存放着三个CSV文件,需要依此提取里面的数据并合并输出到一个Excel文件中。
调用自定义函数运行后,CSV文件数据将自动提取合并,并产生一个新的Excel文件存储在Python脚本同一路径下,名字为指定的名字。本例为指定的David.xlsx
一旦被定义成函数,使用起来就跟使用Excel函数那般简单。