工作上需要把几个较大的excel文件合并成单个文件,网上查了一堆,都是把excel合并成excel,总感觉会相当慢,本身用python的xlrd包读取excel大文件已经是相当慢了,比如我遇到的100多兆的xlxs文件,读取要4分钟,相当崩溃,而且要转换到excel文件我看到的是用python的xlwt一个cell一个cell地写,估计是相当地慢,但读取的时候是一行一行地读,这就相当不合理了。。。为什么不能合并写到txt文本文件中!
###########################################################
# 文件名:excel_concat.py
# 作者:lssc4205
# 时间:2018/4/10
# 描述:本脚本用于将文件夹下的所有xlsx文件的内容复制保存到txt文件中,
# 默认xlsx文件只有一个sheet,保存后的txt内容以,(逗号)分隔。
############################################################
import xlrd
import glob
import os
HEAD_FLAG = True #EXCEL文件是否包含head
############################################################
# 将excel文件的内容写入到txt文件中,字段以逗号分隔,注意参数类型,
# workbook为用xlrd读取excel后的实例,dest_txt是文件句柄。
############################################################
def copy_xlsx_to_txt(workbook, dest_txt):
global HEAD_FLAG
sheet = workbook.sheet_by_index(0)
row_total = sheet.nrows
if HEAD_FLAG:
start = 0
HEAD_FLAG = False
else:
start = 1
for row_num in range(start, row_total):
line = ",".join(map(str, sheet.row_values(row_num)))
dest_txt.write(line+'\n')
dest_txt.flush()
#############################################################
# 将文件夹中的xlsx文件构造成生成器,每次返回文件句柄和文件名
#############################################################
def fetch_data_files(data_fold_path):
files = glob.glob(os.path.join(data_fold_path, "*.xlsx"))
for file in files:
workbook = xlrd.open_workbook(file)
yield workbook, file
#############################################################
# 主函数
#############################################################
def run(data_fold, dest_filename):
output_file = open(dest_filename, 'w', encoding='utf-8')
for workbook, xlsx_name in fetch_data_files(data_fold):
print('正在处理文件:%s...' % xlsx_name)
copy_xlsx_to_txt(workbook, output_file)
print('处理完成,已写入:%s' % dest_filename)
output_file.close()
if __name__ == '__main__':
run('../2017授权清单/', '../concat.txt')