pandas读取一个文件夹下所有excel文件

最新推荐文章于 2024-04-29 18:08:20 发布

舞剑弄清影

最新推荐文章于 2024-04-29 18:08:20 发布

阅读量1.1k

点赞数

文章标签： pandas excel

本文链接：https://blog.csdn.net/weixin_42556357/article/details/132804653

版权

我这边有个需求，是要求汇总一个文件夹所有的excel文件，其中有.xls和 .xlsx文件，同时还excel文件中的数据可能还不一致，会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件：使用os库来遍历包含子文件夹的主文件夹，并读取所有的Excel文件。

import os

main_folder = '文件夹路径'
all_data = []

for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件，可以根据需要修改扩展名
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据：使用pandas的concat函数将所有数据帧合并为一个总的数据帧，并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)

# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢，保存总表：将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

在这里插入图片描述
上图错误，我用断点调试去看数据，发现里面出现了一个错误的文件路径。是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件，去查了一下资料
如下解释：
在Windows系统中，当一个Excel文件（.xlsx 或 .xls）正在被某个用户编辑时，Excel会创建一个临时文件，文件名以 ~$ 开头，然后是原始文件的名称。这个临时文件用于跟踪编辑进程，以防止多个用户同时编辑相同的文件时发生冲突。

所以在os.walk遍历文件夹时，它会包括所有文件，包括这些临时文件。这些临时文件通常不应被处理或读取，因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件，您可以添加一个条件来检查文件名，如果文件名以 ~$ 开头，则跳过该文件，
在循环中多加一个判断就好了。

if not file.startswith("~$"):

舞剑弄清影

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
pandas读取一个文件夹下所有excel文件

我这边有个需求，是要求汇总一个文件夹所有的excel文件，其中有.xls和 .xlsx文件，同时还excel文件中的数据可能还不一致，会有表头数据不一样需要一起汇总。首先先遍历子文件夹并读取Excel文件：使用os库来遍历包含子文件夹的主文件夹，并读取所有的Excel文件。然后是合并数据：使用pandas的concat函数将所有数据帧合并为一个总的数据帧，并处理不同表头的情况。假设表头位于第一行。最后呢，保存总表：将合并后的数据保存到一个新的Excel文件。
复制链接

扫一扫