Python和VBA批量提取Word中的表格

9 篇文章 0 订阅
8 篇文章 0 订阅

表格在word文档中常见的文档元素之一。操作word文件时有时需要提取文件中多个表格的内容到一个新的文件,甚至有时还会要提取题注信息。

今天,给大家分享两种批量提取文档中表格的两种方法,分别是VBA法和Python法两种。

一、VBA法提取word中的表格

1. 代码实现

VBA(Visual Basic for Applications)操作Word文件时,可以执行包括创建、打开、保存、修改文本和格式等多种任务。今天,我们使用VBA来批量提取当前文件中的表格,在每个表格中间添加一个空行。实现代码如下:

 Sub ExtractTablesAndPreviousRowToNewFile()
 Dim docSource As Document
 Dim docTarget As Document
 Dim tbl As Table
 Dim rng As Range
 Dim outputPath As String
 Dim fileName As String
 
 ' 设置输出文件名和路径
 fileName = "output.docx"
 outputPath = ActiveDocument.Path & "\" & fileName
 
 ' 当前文档设置为源文档
 Set docSource = ActiveDocument
 ' 创建一个新文档作为目标文档
 Set docTarget = Documents.Add
 
 For Each tbl In docSource.Tables
 
 ' 复制表格
 tbl.Range.Copy
 docTarget.Content.InsertParagraphAfter
 docTarget.Content.Paragraphs.Last.Range.Paste
 
 ' 在表格后添加一个空行
 docTarget.Content.InsertParagraphAfter
 docTarget.Content.Paragraphs.Last.Range.InsertParagraphAfter
 Next tbl
 
 ' 删除目标文档中的第一个空段落
 If docTarget.Paragraphs.Count > 0 Then
 docTarget.Paragraphs(1).Range.Delete
 End If
 
 ' 保存新文档到指定路径
 docTarget.SaveAs2 fileName:=outputPath, FileFormat:=wdFormatXMLDocument
 docTarget.Close
 
 MsgBox "表格及其上方一行内容已经成功提取到 " & outputPath, vbInformation
End Sub

2. 代码分析

以上代码首先激活当前文档作为源文档,然后创建一个新文档output.docx用来放置提取的表格和题注。它会遍历源文档中的所有表格,对于每个表格,尝试复制表格本身到目标文档中。

每个表格后面,还会插入一个空行以保持文件中多个表格间清晰的视觉分隔。

3. 使用方法

首先,在Word中打开你想提取表格的文档,然后按下 Alt + F11 打开VBA编辑器。在【项目】窗格中,选择你的文档,然后插入一个新的模块(右键点击你的文档名称,选择【插入】 > 【模块】)。将以上VBA代码复制并粘贴到新模块中。关闭VBA编辑器,然后运行宏(在Word中,可以通过【视图】 > 【宏】> 【查看宏】,选择这个宏,然后点击【运行】即可。

二、Python法

Python在office办公自动化方面有非常广泛的用途,它有专门的库来处理office中的各个组件,而且这些都是开源免费使用的。操作word文件就要用到python-docx这个库,在编写程序之前要安装新版的Python程序,然后在cmd下面用pip install python-docx来安装这个库,也可以在thonny这个轻量版的集成开发环境中安装python-docx用于操作word文件。

1.代码实现

我们首先从docx中导入Document模块,然后读取指定的word文件,提取表格及其内容到一个新的文件当中并保存。实现代码如下:

from docx import Document
import os

def extract_tables(doc_path, output_path):
    # 加载原始文档
    doc = Document(doc_path)
    new_doc = Document()

    # 提取表格并添加到新文档
    for i, table in enumerate(doc.tables):
        t = new_doc.add_table(rows=1, cols=len(table.columns))
        t.style = 'Table Grid'  # 使用内置的表格样式,这样会自动添加框线
        # 复制表头
        for j, cell in enumerate(table.rows[0].cells):
            t.cell(0, j).text = cell.text
        # 复制其他行
        for row in table.rows[1:]:
            new_row = t.add_row()
            for j, cell in enumerate(row.cells):
                new_row.cells[j].text = cell.text

        # 除了最后一个表格外,在每个表格后添加一个空行(空段落)
        if i < len(doc.tables) - 1:
            new_doc.add_paragraph()

    # 保存新文档
    new_doc.save(output_path)

# 使用示例
extract_tables('example.docx', 'output.docx')

2. 代码分析

以上代码把example.docx文件中的所有表格提取到了output.docx文件中,同时使用了表格的内置样式,给新生成的表格自动添加框线,基本实现表格文本内容的提取,但是表格中的字体颜色、大小和边框样式均无法提取。同时这里也没有提取题注,这时我们需要对代码进一步修改,以使其可以提取表格上方的题注。

3. 提取题注和表格内容

本代码把表格上方居中的文字默认识别为表格的题注,提取表格内容时会一并提取出来。

from docx import Document
from docx.enum.text import WD_ALIGN_PARAGRAPH
import os

def extract_tables_with_titles(doc_path, output_path):
    # 加载原始文档
    doc = Document(doc_path)
    new_doc = Document()

    # 提取表格并添加到新文档
    for i, table in enumerate(doc.tables):
        # 尝试定位并复制表格上方的居中文字
        # 查找表格前的段落
        para = table._element.getprevious()
        if para is not None and para.tag.endswith('p'):
            # 检查该段落的格式是否为居中
            p = para.getparent()
            para_obj = [p for p in doc.paragraphs if p._element == para][0]
            if para_obj.alignment == WD_ALIGN_PARAGRAPH.CENTER:
                # 添加居中的段落到新文档
                new_para = new_doc.add_paragraph(para_obj.text)
                new_para.alignment = WD_ALIGN_PARAGRAPH.CENTER

        # 添加表格
        t = new_doc.add_table(rows=1, cols=len(table.columns))
        t.style = 'Table Grid'  # 使用内置的表格样式,这样会自动添加框线

        # 复制表头
        for j, cell in enumerate(table.rows[0].cells):
            t.cell(0, j).text = cell.text
        # 复制其他行
        for row in table.rows[1:]:
            new_row = t.add_row()
            for j, cell in enumerate(row.cells):
                new_row.cells[j].text = cell.text

        # 除了最后一个表格外,在每个表格后添加一个空行(空段落)
        if i < len(doc.tables) - 1:
            new_doc.add_paragraph()

    # 保存新文档
    new_doc.save(output_path)

# 使用示例
extract_tables_with_titles('example.docx', 'output.docx')

以上代码在原有代码基础上增加了题注内容的提取,通过调用extract_tables_with_titles这个函数,批量把example.docx文件中的表格和题录提取出来,并放到了output.docx当中,并且每个表格之间会有一个空行。

三、演示视频

本人录制了相关视频,供大学参考使用。

VBA和Python提取Word中的表格

四、学后反思

  1. 利用VBA和Python均可以实现表格内容提取的功能,但是对于文字和表格的样式无法完整提取。后期会进一步探索如何把表格内容和样式完整拷贝出来,但是由于涉及字体等特殊格式,提取样式会有一定的难度。
  2. 上面两种方法的优势在于可以批量、高效地提取表格内容,但是无法提取样式,因此在提取复杂表格时可能会报错。
  3. 以上代码默认是把表格批量提取到当前目录,VBA代码应用的是当前的word文件,而python则要求提取的文件名为example.docx,如果想批量提取多个文件中的表格则还需要添加for循环来遍历所有的word文件。
  • 18
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: Python 是一种强大的编程语言,它具有处理文本、数据和自然语言的功能。Python 可以轻松地读取和提取各种数据,包括 Word 文档表格。 在 Python 批量提取 Word 表格,需要使用第三方库 python-docx。该库是专门用于读取和写入 Microsoft Word 文档的 Python 库。使用该库可以轻松地批量处理 Word 文档表格提取表格数据、插入数据或修改数据。 具体步骤如下: 1. 安装 python-docx 库。可以通过 pip install python-docx 命令来安装。 2. 使用 docx.Document() 创建一个 Word 文档对象。 3. 遍历文档表格,使用 table.rows 和 table.columns 获取表格的行列数。 4. 遍历表格的每一行,使用 row.cells 获取每一行的单元格。 5. 获取每一行单元格的数据,使用 cell.text 获取单元格的文本内容。 完整代码示例如下: ``` import docx # 创建一个 Word 文档对象 document = docx.Document('example.docx') # 遍历文档表格 for table in document.tables: # 获取表格的行列数 nrows = len(table.rows) ncols = len(table.columns) # 遍历每一行 for i in range(nrows): # 获取每一行的单元格 row_cells = table.rows[i].cells # 遍历每一行的单元格 for j in range(ncols): # 获取单元格数据 cell_data = row_cells[j].text print(cell_data) ``` 以上是使用 Python 批量提取 Word 表格的方法,该方法可以方便快捷地处理多个文档表格数据,提高数据处理效率。 ### 回答2: Python是一个非常强大的编程语言,能够处理各种数据类型和文件格式。针对word表格批量提取,也可以使用Python轻松实现。以下是实现的方法: 1. 安装python-docx库 python-docx是Python的一个库,可以用于处理Word文档。首先需要在电脑上安装Pythonpython-docx库。 在命令行输入以下命令安装python-docx库: ``` pip install python-docx ``` 2. 打开word文档 使用Python打开word文档的代码如下所示: ```python import docx doc = docx.Document('file.docx') # ‘file.docx’是需要提取表格Word文档 ``` 3. 获取文档表格 使用以下代码可以获取文档的所有表格: ```python tables = doc.tables ``` 4. 批量读取表格数据 使用以下代码可以读取表格的数据: ```python for table in tables: for row in table.rows: for cell in row.cells: print(cell.text) ``` 以上代码将输出所有表格的行和列对应的文字内容。需要注意的是,表格可能包含合并的单元格,需要额外处理,可以使用python-docx库的Table类方法来处理。 5. 批量写入数据 批量写入数据时,可以先将表格转换为一个嵌套列表,然后将表格数据写入CSV文件。以下是转换表格并写入CSV文件的代码: ```python import csv import docx doc = docx.Document('file.docx') # ‘file.docx’是需要提取表格Word文档 tables = doc.tables for table in tables: data = [] keys = None for i, row in enumerate(table.rows): text = (cell.text for cell in row.cells) if i == 0: keys = tuple(text) continue row_data = dict(zip(keys, text)) data.append(row_data) with open(f"{table.name}.csv", "w", newline="") as f: writer = csv.DictWriter(f, keys) writer.writeheader() writer.writerows(data) ``` 以上代码将根据每个表格的名称自动将表格数据写入对应的CSV文件Python提取word表格的过程就是这样,简单易懂,实现起来也相对简单。而且Python操作word文档不需要Microsoft Office软件本身,只需要安装相应的库即可,操作更加便捷。 ### 回答3: 要批量提取 Word 表格,可以使用 Python python-docx 库。该库是一个用于创建、修改和提取 Microsoft Word 文档的Python解析程序库,并且非常适合处理 Word 文档表格。 具体步骤如下: 1. 安装 python-docx 库:可以通过 pip 命令进行安装,命令为 pip install python-docx。 2. 导入 python-docx 库:在 Python 代码导入 python-docx 库,以便使用库的函数和类。 3. 打开 Word 文档:使用库的 Document 类打开 Word 文档,方法为 doc = Document('filename.docx'),其 filename.docx 是要打开的 Word 文件名。 4. 遍历 Word 文档表格:使用 doc.tables 属性可以获取文档的所有表格,该属性返回一个表格列表,其每个表格都是一个 Table 对象。 5. 处理每一个表格:对于每个 Table 对象,使用 for 循环遍历每一行(row)和每一列(cell)以处理表格的数据。例如,要获取表格第2行第3列单元格的文本内容,并将其存储在变量 text ,可以使用 text = table.cell(2, 3).text。 6. 将数据保存到文件:使用 Python 的标准文件处理方法将数据保存到文件。 以下是一个示例代码,用于从一个 Word 文档提取所有表格的内容并将其保存到 CSV 文件: ```python import csv from docx import Document document = Document('example.docx') tables = document.tables for table in tables: with open('table.csv', 'a', newline='') as csvfile: writer = csv.writer(csvfile, delimiter=',') for row in table.rows: row_data = [] for cell in row.cells: row_data.append(cell.text) writer.writerow(row_data) writer.writerow([]) ``` 在此示例,我们使用 csv 库将提取到的表格内容保存到一个名为 table.csv 的 CSV 文件。我们使用 for 循环遍历每个表格,然后使用嵌套的 for 循环遍历每个行和单元格,提取单元格的文本内容,并将每一行的数据写入 CSV 文件。最后,我们在 CSV 文件插入一个空行以区分不同的表格。 总之,使用 python-docx 库可以方便地批量提取 Word 表格数据,提取的数据可以方便地保存到 CSV、JSON 或其他常见的数据格式
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PythonFun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值