使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并到一个 xlsx 的不同 sheets 内

这几天在用 Python3 研究一个爬虫,最后一个需求是把爬下来的20+个csv文件整合到一个excel表里的不同sheets。

https://billc.io/wp-content/uploads/2019/04/image-3-1600x1175.png

 

初版的核心代码如下:

1 while year <= 2018:
2     csvPath = sys.path[0] + '/result/%d.csv' % year
3     excelPath = sys.path[0] + '/result.xlsx'
4     csvReader = pandas.read_csv(csvPath, encoding='utf_8_sig')
5     excelWriter = pandas.ExcelWriter(excelPath)
6     print("正在将 %d 年的 %d 条数据转换为 xlsx..." % (year, countThis))
7     csvReader.to_excel(excelWriter, sheet_name=str(year))
8     year = year + 1

 

奇怪的是使用这个方法,每次to_excel之后,result.xlsx中都只会存储一年的数据,只会存在一个sheet,之前的所有数据都会被覆盖。

通过查询官方文档(pandas.DataFrame.to_excel)和一个github上跨越了5年的issue(Allow ExcelWriter() to add sheets to existing workbook)得知pandas库的ExcelWriter缺失了一个mode='a'的append模式,所以在这种情况下每次to_excel()都会直接新建一个文件写入而无视之前的数据。

解决方案是使用openpyxl engine来打开ExcelWriter,用openpyxl的load_workbook方法将之前已经存在的数据加载进ExcelWriter.book里。修改后的核心代码如下:

 1 # 依赖 openpyxl 库
 2 from openpyxl import load_workbook
 3 
 4 while year <= 2018:
 5     csvPath = sys.path[0] + '/result/%d.csv' % year
 6     excelPath = sys.path[0] + '/result.xlsx'
 7     csvReader = pandas.read_csv(csvPath, encoding='utf_8_sig')
 8     # 增加 engine='openpyxl' 一栏
 9     excelWriter = pandas.ExcelWriter(excelPath, engine='openpyxl'10     # 使用 openpyxl 来把现有数据传递给excelWriter,使其在写入的时候保留原本数据
11     book = load_workbook(excelPath)
12     excelWriter.book = book
13 
14     print("正在将 %d 年的 %d 条数据转换为 xlsx..." % (year, countThis))
15     csvReader.to_excel(excelWriter, sheet_name=str(year))
16     excelWriter.save()

 

如此存储的excel文件里就会有多个sheets了,每个sheets里都存储着一个csv里的全部数据。

https://billc.io/wp-content/uploads/2019/04/image-5-1600x204.png

 

需要注意的是这样做的效率非常低,因为这并不是真正的追加模式,而是在每一次创建ExcelWriter对象之后,先将现有的数据全部传入ExcelWriter,再将新的数据连同旧的数据一同写入一个新的文件并覆盖。这就导致程序作了许多重复而无用的工作,所以我在处理这个任务的时候。最后的几个10+m的csv文件的平均耗时都在300s以上,如果还有后续任务的话,这个数字会一直增长下去。得到一个80m的xlsx总表耗费了接近一个小时的时间,这对于一些更大的任务来说是难以接受的。所以如果你需要处理的任务比较巨大,你可以脱离pandas库而使用xlrd和xlwt里的方法,会使运行效率优雅不少。(也许直接使用excel的vba宏也是个不错的选择?)

 

来源:https://billc.io/2019/04/pandas-append-excel/

转载于:https://www.cnblogs.com/BillChen2000/p/pandas-append-excel.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
pandas的to_excel方法是用于将数据保存到Excel文件中的方法。在给定的路径中创建一个Excel文件,并将DataFrame的内容写入到文件中的指定工作表中。例如,代码中的第5行使用pandas.ExcelWriter创建了一个ExcelWriter对象,然后第7行使用to_excel方法csvReader的内容写入到excelWriter对象中的一个工作表中,这样就将数据保存为xlsx格式的文件了。 另外,pandas的to_csv方法是用于将数据保存到CSV文件中的方法。它将DataFrame对象的内容写入到一个以逗号分隔的文本文件中。在代码中,第3行使用to_csv方法将DataFrame对象csvReader的内容保存为csv文件,其中的index=None参数表示不保存索引。接着在第4行使用pd.read_csv方法读取这个csv文件中的内容并赋值给df2。 如果你想了解更多关于pandas的to_excel和to_csv方法的信息,你可以参考引用中提供的链接,该链接中详细介绍了如何使用这两个方法来导入和导出Excel文件CSV文件。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [使用 Pandas 的 to_excel() 方法来将多个 csv 文件合并一个 xlsx不同 sheets 内](https://blog.csdn.net/King7117/article/details/101800343)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [pandas数据存储读取read_csv(), to_csv(),read_excel(), to_excel()(常用方法,例子丰富)](https://blog.csdn.net/Light2077/article/details/102921032)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值