Python pandas 处理多个 Excel 工作簿。计数、求和、求平均等


一、工作表计数

二、从多个工作表中连接(concat)数据

三、批量计算工作簿和工作表总数和均值



原数据下载




一、工作表计数

计算当前目录下所有的 excel 数量,并显示 sheet row colum 等详细信息

注意 高版本的 xlrd 不支持 .xlsx 格式。会报错 xlrd.biffh.XLRDError: Excel xlsx file; not supported

os.path.basename(input_file) 文件名
workbook.nsheets 一个工作簿中 sheet 数量
worksheet.nrows 一个 sheet 中 总行数
worksheet.ncols 一个 sheet 中 总列数

import glob
import os
from xlrd import open_workbook

input_directory = "E:\work\code\excel"

workbook_counter = 0
for input_file in glob.glob(os.path.join(input_directory, '*.xls')):
	print(input_file)
	workbook = open_workbook(input_file)
	print('Workbook: {}'.format(os.path.basename(input_file)))
	print('Number of worksheets: {}'.format(workbook.nsheets))
	for worksheet in workbook.sheets():
		print('Worksheet name:', worksheet.name, '\tRows:',\
				worksheet.nrows, '\tColumns:', worksheet.ncols)
	workbook_counter += 1
print('Number of Excel workbooks: {}'.format(workbook_counter))

在这里插入图片描述





二、合并(concat)多个工作表中的数据

将多个工作簿中的多个 sheet 文件合并,主要用到 appendconcat

第一层循环 遍历所有的工作簿 all_workbooks。

第二层循环 遍历每个工作簿中的 all_worksheets

axis=0 表示将数据垂直拼接起来,axis=1 表示将数据平行拼接起来。

merge 如果想要根据某个关键字拼接数据,可以用 merge。

import pandas as pd
import glob
import os

input_path = "E:\work"
output_file = "E:\work\output_file.xlsx"

all_workbooks = glob.glob(os.path.join(input_path,'*.xls*'))
data_frames = []
# 第一层循环
for workbook in all_workbooks:
	all_worksheets = pd.read_excel(workbook, sheet_name=None, index_col=None)
	# 第二次循环
	for worksheet_name, data in all_worksheets.items():
		data_frames.append(data)
all_data_concatenated = pd.concat(data_frames, axis=0, ignore_index=True)

writer = pd.ExcelWriter(output_file)
all_data_concatenated.to_excel(writer, sheet_name='all_data_all_workbooks', index=False)
writer.save()




三、批量计算工作簿和工作表总数和均值

每个 workbook 工作簿 的总数,平均值。
每个 worksheet 表 的总数,平均值。

pd.Series(total_sales / number_of_sales) 总销售额 除以 总数量 的时候,格式会发送变化,需要用 pd.Series 转换

在这里插入图片描述

#!/usr/bin/env python3
import pandas as pd
import glob
import os

input_path = "E:\work"
output_file = "E:\work\output_file.xlsx"

all_workbooks = glob.glob(os.path.join(input_path, '*.xls*'))
data_frames = []

# 第一层遍历,获取到虽有的工作簿 workbook
for workbook in all_workbooks:
    all_worksheets = pd.read_excel(workbook, sheet_name=None, index_col=None)

    # 需要统计的数据项
    workbook_total_sales = []
    workbook_number_of_sales = []
    worksheet_data_frames = []
    worksheets_data_frame = None
    workbook_data_frame = None

    # 遍历一个工作簿中的所有 worksheet
    for worksheet_name, sheet_data in all_worksheets.items():
        # 获取销售总额, 保活替换空格 美元符号等
        total_sales = pd.DataFrame([float(str(value).strip('$').replace(',', '')) for value in sheet_data.loc[:, 'Sale Amount']]).sum()
        # 用 len() 函数 求出数量
        number_of_sales = len(sheet_data.loc[:, 'Sale Amount'])
        # 计算出 一个 worksheet 的平均值,这里需要用 Series 转换数据格式
        average_sales = pd.Series(total_sales / number_of_sales)

        # 将每个 worksheet 的销售总额 和销售量 记录,然后在 内层 for 循环结束后 求和,就得到单个 workbook 的总和
        workbook_total_sales.append(total_sales)
        workbook_number_of_sales.append(number_of_sales)

        data = {'workbook': os.path.basename(workbook),
                'worksheet': worksheet_name,
                'worksheet_total': total_sales,
                'worksheet_average': average_sales}

        worksheet_data_frames.append(
            pd.DataFrame(data, columns=['workbook', 'worksheet', 'worksheet_total', 'worksheet_average']))
    worksheets_data_frame = pd.concat(worksheet_data_frames, axis=0, ignore_index=True)
    # 求和,就得到单个 workbook 的总和
    workbook_total = pd.DataFrame(workbook_total_sales).sum()
    workbook_total_number_of_sales = pd.DataFrame(workbook_number_of_sales).sum()
    # 除以 workbook 的总数 得一个工作簿的平均值
    workbook_average = pd.Series(workbook_total / workbook_total_number_of_sales)

    workbook_stats = {'workbook': os.path.basename(workbook),
                      'workbook_total': workbook_total,
                      'workbook_average': workbook_average}

    workbook_stats = pd.DataFrame(workbook_stats, columns=['workbook', 'workbook_total', 'workbook_average'])
    # 左连接 'workbook' 相当于连接key
    workbook_data_frame = pd.merge(worksheets_data_frame, workbook_stats, on='workbook', how='left')
    data_frames.append(workbook_data_frame)

all_data_concatenated = pd.concat(data_frames, axis=0, ignore_index=True)

writer = pd.ExcelWriter(output_file)
all_data_concatenated.to_excel(writer, sheet_name='sums_and_averages', index=False)
writer.save()

  • 0
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用Python中的pandas库来合并多个Excel文件。具体步骤如下: 1. 导入pandas库和os库 ```python import pandas as pd import os ``` 2. 设置要合并的Excel文件所在的文件夹路径 ```python folder_path = 'path/to/your/folder' ``` 3. 获取文件夹中所有Excel文件的文件名 ```python file_names = os.listdir(folder_path) excel_files = [f for f in file_names if f.endswith('.xlsx')] ``` 4. 创建一个空的DataFrame ```python df = pd.DataFrame() ``` 5. 遍历所有Excel文件,将它们读取为DataFrame,并将它们合并到df中 ```python for file in excel_files: file_path = os.path.join(folder_path, file) temp_df = pd.read_excel(file_path) df = pd.concat([df, temp_df], ignore_index=True) ``` 6. 将合并后的DataFrame保存为一个新的Excel文件 ```python output_file_path = 'path/to/output/file.xlsx' df.to_excel(output_file_path, index=False) ``` 以上就是使用pandas库合并多个Excel文件的步骤。 ### 回答2: 要将多个Excel文件合并成一个文件,我们可以使用Python中的Pandas库。Pandas是一个专门用于数据处理数据分析的库,它提供了DataFrame(数据帧)的数据结构,可以非常方便地处理和操作数据。 首先,我们需要安装Pandas库。我们可以使用pip命令在终端中输入以下命令进行安装: ``` pip install pandas ``` 在安装完成后,我们就可以开始使用Pandas来合并多个Excel文件了。下面是基本的思路: 1. 导入Pandas库 ``` import pandas as pd ``` 2. 读取Excel文件 我们可以使用`pd.read_excel()`方法来读取Excel文件。例如,如果我们要读取名为“file1.xlsx”的文件,可以使用以下代码: ``` df1 = pd.read_excel('file1.xlsx') ``` 3. 合并多个Excel文件 我们可以使用`pd.concat()`方法来合并多个DataFrame对象。例如,如果我们要合并df1、df2和df3三个DataFrame对象,可以使用以下代码: ``` result = pd.concat([df1, df2, df3]) ``` 其中,`result`变量将包含所有DataFrame对象中的数据,并将它们合并成一个大DataFrame对象。 4. 将数据保存到新的Excel文件中 最后,我们可以使用`result.to_excel()`方法将合并后的数据保存到一个新的Excel文件中。例如,我们可以使用以下代码将数据保存到名为“merged.xlsx”的文件中: ``` result.to_excel('merged.xlsx', index=False) ``` 在这种情况下,`index`参数被设置为`False`,这意味着我们不希望将DataFrame对象中的索引列也保存到Excel文件中。 总之,使用Pandas合并多个Excel文件非常简单,只需使用上述步骤即可。这种方法适用于多种不同的数据合并场景。 ### 回答3: 要合并多个Excel文件,可以使用Python中的pandas库。pandas库提供了许多方便的函数来处理数据,包括读取、修改和合并数据。 以合并两个Excel文件为例,我们先读取两个Excel文件(假设都在同一文件夹下): ```python import pandas as pd df1 = pd.read_excel("file1.xlsx") df2 = pd.read_excel("file2.xlsx") ``` 接下来,我们可以使用pandas库中的concat函数将两个数据框(dataframe)合并成一个。如果两个数据框中的列名不同,我们可以使用rename函数将它们重命名为相同的列名: ```python df1 = df1.rename(columns={"old_name": "new_name"}) df2 = df2.rename(columns={"old_name": "new_name"}) merged_df = pd.concat([df1, df2]) ``` 如果想按照行的方式合并,即将df2的内容,添加到df1的后面,可以使用append方法: ```python merged_df = df1.append(df2) ``` 如果要将多个Excel文件合并成一个,可以使用循环遍历每个Excel文件,然后使用concat或append函数将它们合并起来: ```python import os # 获取当前文件夹下的所有Excel文件 files = [f for f in os.listdir(".") if f.endswith(".xlsx")] # 将所有Excel文件读取成数据框并合并 merged_df = pd.DataFrame() for file in files: df = pd.read_excel(file) merged_df = merged_df.append(df) # 将合并后的数据框写入到Excel文件中 merged_df.to_excel("merged.xlsx", index=False) ``` 以上就是用Python pandas合并多个Excel文件的方法。需要注意的是,如果合并的Excel文件中有重复的列名或者行号,可能会导致合并后的结果出现错误。因此,在合并之前,最好先检查数据的格式和内容,确保能够正确合并。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值