在日常工作中,我将遇到这样一个固定的工作每个月,导入数据编制的业务同事GP数据库中的一个表;这听起来像一个非常简单的工作!但每次业务MM总是发送一个文件夹中,有30或40 (Excel文件。xlsx格式,字段名相同)。根据业务MM,很多文件的部门是为方便和解,所以他们不能放在一起。作为一个小菜鸟,当我得到这些数据,我想到的第一件事是:(1)创建一个新的excel文件;(2)分别将三、四十个文件复制数据。(3)保存文件作为一个csv文件;(4)使用复制命令将数据导入表中全科医生数据库。导入或复制和进口文件确实是一个一个接一个的重复工作,浪费时间;很少的操作之后,它很无聊和累~我必须找到一种新的方法来提高效率并解放自己。
拼凑,网上搜索信息后,终于一个小脚本自动合并数据。这个想法如下:(1)使用python阅读所有的excel (.xlsx)固定文件夹中的文件(2)把这些文件数据,并将结果保存在同一个文件中。脚本如下:#导入所需的模块导入osimport大熊猫作为pdimport numpy为np #处理文件夹所在的路径dir = #\u201Ce: \\ \\测试\u201D创建一个新的列表和存储文件名称(它可以忽略,但为了知道这个过程,把它放在第一位)filename_excel =[] #创建一个新的列表,每个文件存储数据帧(每个读取excel和存储在数据帧)帧=[]#读取文件名称的文件夹在一个循环中根,dirs,文件(dir):在文件:文件filename_((根、文件))(df) #打印文件名打印(filename_excel) #结合所有数据结果=(帧)()#将合并后的数据文件的磁盘e,这是好的存储文件格式根据实际需要_csv (\u201Ce: \\ \\, 9 =\u201D,\u201C指数= False),稍微处理合并后的文件,如删除标题行,等等。
如果使用skiprows =[0],每个文件将失去一行)。最后,使用拷贝语句导入GP数据库表。