python 批量读取文件夹下的电子表格汇总_Python-pandas批量读取同一文件夹下的所有.xlsx文件并提取指定列写入一张excel表...

最新推荐文章于 2023-11-20 09:00:34 发布

weixin_39657575

最新推荐文章于 2023-11-20 09:00:34 发布

阅读量1.8k

点赞数 1

文章标签： python 批量读取文件夹下的电子表格汇总

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39657575/article/details/111849270

版权

本文介绍了如何使用Python的pandas库批量读取文件夹下的.xlsx文件，提取特定列并合并到一张新的Excel表中。处理过程中，通过读取文件的第一行获取列索引，然后读取指定列数据，同时追加一列记录文件名，确保数据来源清晰。最后，所有数据被整合到一个名为'res.xlsx'的文件中。

摘要由CSDN通过智能技术生成

工作需要将一批csv文件转为excel文件并进行数据计算处理，因为csv文件为；分割，并且转为excel文件后可能同一个名称的列不在同一列，比如同样是Paid Price名称的列，一个文件在AL列，两一个在AO列，如果单纯的读取所有文件并合并的话就会导致数据错列排放，在网上找了很多教程并没有现成的程序解决问题，所以就只能自己动手丰衣足食了。

每个.xlsx文件都是有csv转换过来的，详见上一篇文章Python批量处理csv文件转Excel--xlsx文件——利用pandas库(csv文件可指定分隔符)

处理思路：

因为文件中的数据并不是所有的数据都有用，只有部分列数据有用，所以可以根据文件中列名称获取索引号，并根据索引号获取整列的数据，再将获取的列数据写入新的excel文件中，加上for循环即可批量写入所有excel文件，为了区分每行数据来自哪个文件，可以加入下列代码每次循环读取指定列数据之后追加一列数据，列数据标题为“店铺”，列内容为文件名

# 追加一列数据，将每个文件的名字追加进该文件的数据中，确定每条数据属于哪个文件

excel_name = file.replace(".xlsx", "") # 提取每个excel文件的名称，去掉.xlsx后缀

df["店铺"] = excel_name # 新建列名为“店铺”，列数据为excel文件名

dfs.append(df) # 将新建店铺列追加进汇总excel中

文件夹内容：

最低0.47元/天解锁文章

weixin_39657575

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。