在2017年暑假绿盟实习期间,部门做的一个项目需要用到docx格式的word文档模板操作,现在有如下记录:
关于python操作docx格式文档,我用到了两个python包,一个便是python-docx包,另一个便是python-docx-template;,同时我也用到了很出名的一个工具"pandoc,下面我会对他们各自进行介绍。
- 首先便是python-docx包,这是一个很强大的包,可以用来创建docx文档,包含段落、分页符、表格、图片、标题、样式等几乎所有的word文档中能常用的功能都包含了,这个包的主要功能便是用来创建文档,相对来说用来修改功能不是很强大,关于文档请查看他的"官网;
- 再然后便是python-docx-template这个包了,他可以用来对docx文档进行修改,诸如对文档中的 文本、图片、富文本、等几乎所有存在与文档中的他都能替换,而且他操作起来就如同很多web框架中的模板语言一样,因为他是和jinjia2模板语言结合使用的,所以最好希望使用之前对模板语言有一定了解;
- 关于pandoc,这个包在许多需要进行文本转换的地方用处很强大,他可以把许多如今存在的文档格式转换问另一种文档格式,如html、markdown、docbook、latex、docx等转换为xml、latex、markdown、pdf,总之很强大,这是官网,有兴趣的可以去了解下。
下面便会相应介绍他们各自的大概的用法。还是按照上面的顺序进行介绍,:
-
关于python-docx这个包我觉得最好还是引用他官网的一段代码解释最为合适了,因为这里面基本情况都被包含了,
- from docx import Document<span id="transmark" style="display: none; width: 0px; height: 0px;"></span>
- from docx.shared import Inches
-
- document = Document()
-
- document.add_heading('Document Title', 0)
-
- p = document.add_paragraph('A plain paragraph having some ')
- p.add_run('bold').bold = True
- p.add_run(' and some ')
- p.add_run('italic.').italic = True
-
- document.add_heading('Heading, level 1', level=1)
- document.add_paragraph('Intense quote', style='IntenseQuote')
-
- document.add_paragraph(
- 'first item in unordered list', style='ListBullet'
- )
- document.add_paragraph(
- 'first item in ordered list', style='ListNumber'
- )
-
- document.add_picture('monty-truth.png', width=Inches(1.25))
-
- table = document.add_table(rows=1, cols=3)
- hdr_cells = table.rows[0].cells
- hdr_cells[0].text = 'Qty'
- hdr_cells[1].text = 'Id'
- hdr_cells[2].text = 'Desc'
- for item in recordset:
- row_cells = table.add_row().cells
- row_cells[0].text = str(item.qty)
- row_cells[1].text = str(item.id)
- row_cells[2].text = item.desc
-
- document.add_page_break()
-
- document.save('demo.docx')
具体样式请看:
关于更多细节希望大家还是去他的官网python-docx;看,介绍的还是很详细
-
然后便是python-docx-template包了,他用起来就向python中的模板语言一样,有上下文,有模板,然后进行变量的替换
关于python-docx-template,他的官网名称便是“像jinjia2一样来操作docx文档”,因此这个包对于用来进行文档修改时很强大的下面是一个简单例子:
- from docxtpl import DocxTemplate
-
- doc = DocxTemplate("1.docx")
- context = { 'company_name' : "World company" }
- doc.render(context)
- doc.save("generated_doc.docx")
-
- 当然,这个包的功能远远不止上面例子中的一些,可以包含图片
-
- myimage = InlineImage(doc,'test_files/python_logo.png',width=Mm(20))
-
- 也可以包含另一个docx文档,
- sub = doc.new_subdoc()
- sub.subdocx = Document('d:\\2.docx')
- doc.render({'sub': sub})
这里操作之后便可以把2.docx文件里面的内容直接插入到doc对象(也就是1.docx)文档中{{sub}}这个变量处,被替换为2.docx中的,基本上用到的都是这两个部分,
关于更多的特性,可以访问官网的example,里面涵盖了几乎所有的特性,地址是https://github.com/elapouya/python-docx-template/tree/master/tests
-
最后便是pandoc了,我在这次用到的功能主要是,用来把html文件直接转换为markdow格式文件,然后再转换为txt文件,最后将txt文件内容和格式一同插入到docx文档中,当然,也可以直接把html文件转换为docx文件,格式基本一致
这是用到的命令,而由于使用pandoc是在控制台下cmd或者shell使用的,因此要用到python的另一个包subprocess
- import subprocess
- subprocess.call('pandoc --latex-engine=xelatex temp.html -o temp.text', cwd='d:\\python', shell=True)
- subprocess.call('pandoc --latex-engine=xelatex temp.text -o t1.text', cwd='d:\\python', shell=True)
或者
- <span style="background-color: rgb(153, 153, 255);">subprocess.call('pandoc temp.html -o temp.docx', cwd='d:\\python', shell=True)</span>
首先里面的cwd参数设置后,会把这个命令执行环境调到cwd所设置的参数路径处,就如同执行命令前,如同先执行了 cd d:\\python命令一样,shell=True相当于新开了一个shell或者cmd控制台,而关于更多例子,可以去官网的在线转换器
https://pandoc.org/try/
或者官网的例子
https://pandoc.org/demos.html
- 还有一个问题,若使用过程中,出现打开docx文档报错,那么极有可能便是初始化模板格式错误,因此需要替换一个新的初始化模板
好了,主要便是这些了,谢谢查看!