Pandas教程：使用Pandas合并多个Excel文件

旦莫

已于 2024-08-21 14:07:19 修改

阅读量2.3k

点赞数 10

于 2024-08-21 14:05:40 首次发布

本文链接：https://blog.csdn.net/weixin_40025666/article/details/141391877

版权

在数据处理和分析中，合并多个Excel文件是一项常见的任务。本文将详细介绍如何使用Python库Pandas来完成这一任务。我们将从基本概念入手，逐步深入，最终通过实战示例完成多个.xlsx文件的合并。

1. 环境准备

1.1 安装Pandas

在开始之前，确保你已经安装了Pandas库。如果还没有安装，可以使用以下命令进行安装：

pip install pandas openpyxl

1.2 准备工作

确保你有一个包含多个Excel文件的文件夹。每个Excel文件的结构应当相似，例如，它们都有相同的列名。

2. 基本概念

2.1 Pandas简介

Pandas是一个强大的数据分析和数据处理库，它提供了灵活的数据结构，特别是DataFrame，这使得数据的操作变得简单高效。

2.2 DataFrame的基本操作

在Pandas中，DataFrame是一个二维标签数据结构，类似于表格。你可以使用DataFrame进行数据的读取、写入、筛选和合并等操作。

3. 读取Excel文件

在合并Excel文件之前，我们需要先了解如何读取单个Excel文件。我们可以使用pd.read_excel()函数来读取Excel文件。

import pandas as pd

# 读取单个Excel文件
df = pd.read_excel('path/to/your/file.xlsx')
print(df.head()) # 显示前5行数据

4. 合并多个Excel文件

4.1 获取文件列表

首先，我们需要获取文件夹中所有Excel文件的列表。我们可以使用os库来实现这一功能。

import os

# 获取指定目录下的所有xlsx文件
folder_path = 'path/to/your/folder'
files = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')]

4.2 读取并合并数据

现在，我们可以使用一个循环来读取每个文件，并将其合并到一个DataFrame中。

# 创建一个空的DataFrame
combined_df = pd.DataFrame()

# 读取每个文件并合并
for file in files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_excel(file_path)
    combined_df = pd.concat([combined_df, df], ignore_index=True)

# 查看合并后的数据
print(combined_df.head())