Python如何批量提取Word文档中的表格内容并保存到Excel？详细教程与示例代码

q446687967

已于 2024-12-04 10:22:26 修改

阅读量1.7k

点赞数 9

分类专栏： python 文章标签： python word excel

于 2024-12-04 10:21:37 首次发布

本文链接：https://blog.csdn.net/q446687967/article/details/144231775

版权

python 专栏收录该内容

1 篇文章

订阅专栏

在日常工作中，我们经常需要从大量的Word文档中提取表格数据，然后汇总到一个Excel文件中。手动操作不仅耗时，而且容易出错。那么，有没有一种高效的方法能够自动化这个过程呢？答案是肯定的！利用Python，我们可以批量提取Word中的表格内容，并将其存入Excel。本文将详细介绍如何使用Python实现这一功能，包括所需的库、具体的代码示例，以及可能遇到的问题和解决方法。

前言

大家好！今天我们一起来探讨一个实用的Python应用场景：如何批量提取Word文档中的表格内容并保存到Excel中。这对于需要处理大量文档数据的朋友来说，绝对是一个提升效率的利器。接下来，我将手把手带领大家完成这一任务。

准备工作

在开始之前，我们需要准备以下工具和库：

Python环境：建议使用Python 3.6及以上版本。
需要处理的Word文档：确保这些文档中包含想要提取的表格。
安装必要的Python库：
- python-docx：用于读取Word文档的库。
- openpyxl：用于写入Excel文件的库。
- pandas：用于数据处理的强大库。

安装Python库

首先，我们需要安装上述提到的Python库。打开命令提示符或终端，运行以下命令：

pip install python-docx openpyxl pandas

这将会自动下载并安装所需的库。如果您已经安装了这些库，请确保它们是最新版本，以避免兼容性问题。

实现步骤

好了，万事俱备，下面我们正式开始编写Python脚本，实现批量提取和保存的功能。

步骤一：导入必要的库

import os
import docx
import pandas as pd

我们需要os库来处理文件路径，docx库（即python-docx）来读取Word文档，pandas来处理和存储数据。

步骤二：设置文件路径

首先，指定存放Word文档的文件夹路径，以及结果Excel文件的保存路径。

# 定义Word文档所在的文件夹
word_folder = 'path/to/your/word/files'

# 定义结果Excel文件的保存路径
excel_file = 'path/to/save/extracted_data.xlsx'

请将path/to/your/word/files替换为实际的Word文件夹路径，path/to/save/extracted_data.xlsx替换为您希望保存Excel文件的路径。

步骤三：获取所有Word文件列表

# 获取文件夹中所有的Word文件
word_files = [f for f in os.listdir(word_folder) if f.endswith('.docx')]

这段代码将会遍历指定文件夹下的所有文件，并筛选出以.docx结尾的文件，即Word文档。

步骤四：遍历Word文件并提取表格内容

# 创建一个空的DataFrame来存储所有表格数据
all_tables_data = pd.DataFrame()

# 遍历每个Word文件
for file in word_files:
    # 构建完整的文件路径
    file_path = os.path.join(word_folder, file)
    
    # 读取Word文档
    doc = docx.Document(file_path)
    
    # 遍历文档中的每个表格
    for table in doc.tables:
        # 提取表格数据
        table_data = []
        for row in table.rows:
            row_data = [cell.text.strip() for cell in row.cells]
            table_data.append(row_data)
        
        # 将表格数据转换为DataFrame
        df = pd.DataFrame(table_data)
        
        # 如果需要，可以在这里添加文件名等额外信息
        df['来源文件'] = file
        
        # 将当前表格数据追加到总的DataFrame中
        all_tables_data = pd.concat([all_tables_data, df], ignore_index=True)

在这段代码中，我们首先创建了一个空的DataFrame，用于存储所有提取的表格数据。然后，对于每个Word文件，我们读取其中的表格，并将表格内容逐行提取出来。最后，将每个表格的数据都追加到总的DataFrame中。

步骤五：将数据保存到Excel文件

# 将所有数据写入Excel文件
all_tables_data.to_excel(excel_file, index=False)
print(f"表格数据已成功保存到 {excel_file}")

这一步非常简单，我们使用pandas的to_excel函数，将所有的表格数据保存到指定的Excel文件中。

代码示例

为了更好地理解，下面我将完整的代码汇总如下：

import os
import docx
import pandas as pd

# 定义Word文档所在的文件夹
word_folder = 'path/to/your/word/files'

# 定义结果Excel文件的保存路径
excel_file = 'path/to/save/extracted_data.xlsx'

# 获取文件夹中所有的Word文件
word_files = [f for f in os.listdir(word_folder) if f.endswith('.docx')]

# 创建一个空的DataFrame来存储所有表格数据
all_tables_data = pd.DataFrame()

# 遍历每个Word文件
for file in word_files:
    # 构建完整的文件路径
    file_path = os.path.join(word_folder, file)
    
    # 读取Word文档
    doc = docx.Document(file_path)
    
    # 遍历文档中的每个表格
    for table in doc.tables:
        # 提取表格数据
        table_data = []
        for row in table.rows:
            row_data = [cell.text.strip() for cell in row.cells]
            table_data.append(row_data)
        
        # 将表格数据转换为DataFrame
        df = pd.DataFrame(table_data)
        
        # 如果需要，可以在这里添加文件名等额外信息
        df['来源文件'] = file
        
        # 将当前表格数据追加到总的DataFrame中
        all_tables_data = pd.concat([all_tables_data, df], ignore_index=True)

# 将所有数据写入Excel文件
all_tables_data.to_excel(excel_file, index=False)
print(f"表格数据已成功保存到 {excel_file}")

请注意，将代码中的路径替换为您实际的文件路径。

注意事项

在实际操作中，可能会遇到以下问题：

Word文档格式不统一：如果不同的文档中表格格式不一样，可能会导致DataFrame列数不一致。建议对表格进行预处理，确保格式统一。
文档中含有嵌套表格：python-docx在处理嵌套表格时可能会有问题，需要额外的代码来处理。
编码问题：确保脚本文件和数据文件的编码一致，避免出现乱码。
处理.doc格式的文件：上述代码只处理.docx格式，如果需要处理.doc格式的文件，可以借助Mammoth等库进行转换，或者使用win32com库。