【Python】从Word文档中提取表格的方法

翠花上酸菜

已于 2024-07-18 10:22:48 修改

阅读量5.6k

点赞数 8

分类专栏： python 办公文章标签： python word 开发语言爬虫

于 2024-07-03 17:25:46 首次发布

本文链接：https://blog.csdn.net/Meggie35/article/details/140156545

版权

python 同时被 2 个专栏收录

84 篇文章

订阅专栏

办公

23 篇文章

订阅专栏

在Python中，从Word文档（通常是.doc或.docx格式）中提取表格可以使用第三方库，如python-docx。以下是使用python-docx库从Word文档中提取表格的基本步骤：

安装python-docx库：如果你还没有安装这个库，可以通过pip安装： bash pip install python-docx

读取Word文档：使用python-docx打开Word文档，并获取文档中的表格。

遍历文档中的表格：文档中的每个表格可以通过遍历文档元素来访问。

提取表格数据：访问每个表格的行和单元格，提取数据。

以下是具体的示例代码：

from docx import Document

# 打开Word文档
doc = Document('example.docx')

# 遍历文档中的所有表格
for table in doc.tables:
    # 遍历表格中的所有行
    for row in table.rows:
        # 遍历行中的所有单元格
        for cell in row.cells:
            # 逐行打印单元格的文本内容
            print(cell.text)
        print("------ 行结束 ------")  # 表示一行的结束

# 如果需要，可以提取整个表格为列表的列表
tables_data = [] #将最后的保存结果存入到列表中
for table in doc.tables:
    table_data = []
    for row in table.rows:
        row_data = [cell.text for cell in row.cells]
        table_data.append(row_data)
    tables_data.append(table_data)

# 打印提取的表格数据
for table in tables_data:
    print(table)

注意要点：

python-docx库只能用于.docx格式的Word文档。如果你需要处理旧版的.doc格式，你可能需要将其转换为.docx格式，可以写一个批量处理这个转换的方法。或者使用其他库，如pywin32（仅限Windows系统），来读取.doc文件。
如果我们有一个文件夹，里面有很多的Word文件，然而我们如果要将word里面的表格一个个提取出来做分析，那么可以用os批量读取文件的方法，然后区分出docx和doc，分别来处理转换的问题。
最后获取的table，行列是列表的格式，而不是dataframe的，如果最终结果需要输出是成dataframe的格式，需要tables_data 新建成空的dataframe获取。
提取的文本不会包含格式化信息，如字体样式、颜色等，只会提取文本内容。如果你需要提取更详细的信息的话，可能需要用到更高级的库或API了。