【Python之Pandas】批量读取某一文件夹下的Excel表格数据

一、使用os.walk()函数遍历文件夹

os.walk(top, topdown=True, οnerrοr=None, followlinks=False)函数可根据给定的路径,遍历该路径下的文件夹及文件,返回三个值:1.根目录root;2.文件夹dirs;3.文件files

代码示例

main_folder = 'D:/SDHSPRO/Green'
for root, dirs, files in os.walk(main_folder):
	print(root, dirs, files)

二、使用endswith()函数判断excel后缀

str.endswith(‘.xlsx’, start, end) 判断字符串是否以指定字符或子字符串结尾

代码示例

file.endswitch('.xls')
file.endswitch('.xlsx')

三、使用文件对话框tkinter.filedialog选择路径

tk.filedialog.askdirectory(title=‘路径’)

四、整体代码

import os
from tkinter import filedialog
def select_main():
    main_folder = tkinter.filedialog.askdirectory(title='路径')
    all_data = []
    for root, dirs, files in os.walk(main_folder):
        for file in files:
            if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展名
                file_path = os.path.join(root, file)  # 包含文件名的路径
                df = pd.read_excel(file_path, skiprows=1)  # 跳过前一行无用数据
                all_data.append(df)
            elif file.endswith(".xls"):
            	file_path = os.path.join(root, file)  # 包含文件名的路径
                df = pd.read_excel(file_path, skiprows=1, engine='xlrd')  # 跳过前一行无用数据
                all_data.append(df)
 	print(all_data)

另:可使用df.drop_duplicates(subset=[‘起点’], keep=‘first’, inplace=True)对行去重

其中,subset=[‘起点’]是列名,可以指定多个列
keep的first: 除了第一次出现以外,删除重复项,last: 除了第一次出现以外,删除重复项。
inplace为True:直接在原始数据删除,False:不直接在原始数据删除,并生成一个副本

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用`os`模块和`pandas`模块来对同一个文件夹excel表格进行批量处理。 首先,需要使用`os`模块获取到该文件夹下的所有excel文件的文件名。可以使用`os.listdir()`函数来获取文件夹下的文件名列表,然后使用`filter()`函数筛选出以`.xlsx`或`.xls`结尾的文件名。 ```python import os folder_path = 'path/to/folder' file_names = os.listdir(folder_path) excel_files = filter(lambda x: x.endswith('.xlsx') or x.endswith('.xls'), file_names) ``` 接下来,就可以使用`pandas`模块读取每个excel表格,进行批量处理了。可以使用`pandas.read_excel()`函数读取excel表格,并对表格进行处理,然后使用`pandas.to_excel()`函数将处理后的表格保存到原文件中或另存为一个新文件。 ```python import pandas as pd for file_name in excel_files: file_path = os.path.join(folder_path, file_name) # 读取excel表格 df = pd.read_excel(file_path) # 对表格进行处理 # ... # 保存处理后的表格 df.to_excel(file_path, index=False) ``` 在这个循环中,`file_path`变量用于获取excel文件的完整路径,然后使用`pandas.read_excel()`函数读取excel表格,并对表格进行处理。处理完成后,使用`pandas.to_excel()`函数将处理后的表格保存到原文件中,其中`index=False`表示不保存行索引,也可以将表格保存到一个新的excel文件中。 完整代码如下: ```python import os import pandas as pd folder_path = 'path/to/folder' file_names = os.listdir(folder_path) excel_files = filter(lambda x: x.endswith('.xlsx') or x.endswith('.xls'), file_names) for file_name in excel_files: file_path = os.path.join(folder_path, file_name) # 读取excel表格 df = pd.read_excel(file_path) # 对表格进行处理 # ... # 保存处理后的表格 df.to_excel(file_path, index=False) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值