数据岗位的小伙伴可能经常会遇到这样一个问题:多个来源返回的数据怎么整合到一个文件中?手动经常会出错,下面介绍一种利用Python处理的方式:
前期准备:
1、多个excel需要进行数据整理,保证文件的结构一致,这里主要用到的字段是:姓名、证件号、以及所在单位(文件名)
2、因为每个返回回来的文件可能结构不同,所以进行第二步前一定要保证第一步处理好,接下来第二步,所有文件放在同一个文件夹,当然也可以做遍历展开所有文件夹,此过程本篇不做展开
3、开干。基本思路:获取每个excel中的所有sheet文件,并读取前两列的所有数据,将对应文件名称设为第三列(即为对应单位)。直接上代码:
# -*- coding: utf-8 -*-
#将多个Excel文件合并成一个
import xlrd
import xlsxwriter
import os
#打开一个excel文件
def open_xls(file):
fh=xlrd.open_workbook(file)
return fh
#获取excel中所有的sheet表
def getsheet(fh):
return fh.sheets()
#获取sheet表的行数
def getnrows(fh,sheet):
table=fh.sheets()[sheet]
return table.nrows
#读取文件内容并返回行内容
def getFilect(file,shnum):
fh=open_xls(file)
table=fh.sheets()[shnum]
num=table.nrows
for row in range(num):
rdata=table.row_values(row)
datavalue.append(rdata)
return datavalue
#添加列并返回行内容
def addcol(file,shnum):
fh=open_xls(file)
table=fh.sheets()[shnum]
num=table.nrows
filename = os.path.basename(file)
index = filename.rfind('.')
name = filename[:index]
for row in range(num):
acol.append(name)
return acol
#获取sheet表的个数
def getshnum(fh):
x=0
sh=getsheet(fh)
for sheet in sh:
x+=1
return x
#遍历文件夹下所有文件并输出文件名
def allxls(rootdir):
allxls = []
for parent, dirnames, filenames in os.walk(rootdir):
for filename in filenames:
if os.path.splitext(filename)[1] == '.xls':
allxls.append(filename)
return allxls
if __name__=='__main__':
#定义要合并的excel文件列表
rootdir = "K:/7 数据分析/3 PYTHON/15 excel合并/广西"
allxls = allxls(rootdir)
#存储所有读取的结果
datavalue=[]
acol = []
for fl in allxls:
filename = os.path.basename(fl)
fh=open_xls(fl)
x=getshnum(fh)
for shnum in range(x):
print("正在读取文件:"+str(fl)+"的第"+str(shnum)+"个sheet表的内容...")
rvalue = getFilect(fl,shnum)
acol = addcol(fl, shnum)
#定义最终合并后生成的新文件
endfile = xlsxwriter.Workbook('demo.xls')
#创建一个sheet工作对象
ws=endfile.add_worksheet()
for a in range(len(rvalue)):
for b in range(0,2):
c = rvalue[a][b]
d = acol[a]
ws.write(a, b, c)
ws.write(a, b+1, d)
endfile.close()
print("文件合并完成")
执行结果: