python-docx读取模板文档并填充数据

简介

python-docx 是开源的一个 Python 库,用于读取、创建和更新Microsoft Word 2007+(.docx)文件。目前最新版本是1.1.2。

官方文档地址:https://python-docx.readthedocs.io/en/latest/

其开源仓库地址:https://github.com/python-openxml/python-docx

准备docx文档

docx 文档可以用 office 打开,也可以用 WPS,这边截图使用的是 WPS,因为里面邮件合并部分 “插入合并域/Next域” 自带的小书名号非常独特,这个符号的正式名称是角引号,主要用于法语、俄语、西班牙语等欧洲语言中,中文语境里使用较少,很适合作为后面遍历行段内容替换字符串时的标识符。

在这里插入图片描述
在这里插入图片描述

在 “插入域” 弹窗的选项中选择域名为 “唯一标识符” 的选项插入,先前鼠标定位的位置就会添加上这个小书名号包裹的 “唯一标识符”。
在这里插入图片描述

只要插入了一个标识符,剩下的就可以复制粘贴了。角引号里面的内容也可以改成自己想要的字段名称,中英文不限。

在这里插入图片描述

像下面的示例表格,便是直接从前面这个唯一标识符复制过来的。复制时记得把角引号包裹住了。WPS里面鼠标点击标识符时会自动出现截图中的深色区域,很方便检查。

在这里插入图片描述

不过这个邮件合并域功能目前我只在 WPS 的 “引用” 模块里有找到,在 office 的 Word 里没有找到对应的地方。虽然 “插入” 里可以选择 “域”,但操作起来容易出错,我自己就没看懂应该选哪个去插入……

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

python代码

前面特地添加一个表格做示例,主要是因为获取文档内容时,表格需要单独的遍历。

from docx import Document

def merge_docx(doc, data):
    '''
    替换文档里各个占位符,替换后保存
    :param data: 数据data = { '这句话的英文': 'Hello World!','这句话的加粗版本': 'Hello World!' }
    :return:
    '''
    # 遍历文档中的所有段落
    for para in doc.paragraphs:
        # 替换每个自定义合并域
        for key, value in data.items():
            if f"«{key}»" in para.text:
                para.text = para.text.replace(f"«{key}»", value)

    # 遍历文档中的所有表格,再遍历单元格内段落
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                cell_text = cell.paragraphs[0].text
                if cell_text[1:-1] in data.keys():
                    key = cell_text[1:-1]
                    val = data[key] # cell.text.replace(f"«{key}»", data[key])
                    pa = cell.paragraphs[0]
                    pa.clear()
                    r = pa.add_run(val)
                    r.bold = True # 加粗需要在run级别设置


data={ '这句话的英文': 'Hello World!','这句话的加粗版本': 'Hello World!' }
doc=Document('test.docx')
merge_docx(doc,data)
doc.save('result.docx')

执行完毕,文档成功生成,里面的内容也成功替换,如下图:

在这里插入图片描述

docx转pdf

有时候,文档需要转换成 PDF 格式,python-docx 缺少相应的工具,因此只能寻求其他工具,比如 win32com,恰好,win32com 可以调用到办公软件里的 wdExportFormatPDF 方法,用来将文件导出成pdf。

这个方法在 office 和 WPS 里都有存在,WPS 的 WebOffice 文档 可以做参考。
在这里插入图片描述

Office 官方的文档也可以看看。
在这里插入图片描述

两个软件的可用方法还是有区别的,只是恰好在导出成PDF这方面是一致。体现在代码中,最主要的便只剩下的调用的底层办公软件对象。

import win32com, pythoncom
from win32com.client import constants, gencache

def word2pdf(word_path):
    pdf_path = word_path.replace(".docx", ".pdf")
    pythoncom.CoInitialize()
    wc = win32com.client.constants
    # 下面这个地方,WPS 就用 kwps.application ,Office就用 word.application
    wps = gencache.EnsureDispatch("kwps.application")
    doc = wps.Documents.Open(word_path, ReadOnly=1)
    doc.SaveAs2(FileName=pdf_path, FileFormat=wc.wdExportFormatPDF)
    wps.Documents.Close(wc.wdDoNotSaveChanges)
    wps.Documents.Close()
    wps.Quit()

word2pdf('result.docx')

执行完毕,文件成功导出。任务完成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值