最近在做一些数据方面的东西。虽然处理 excel 很方便。有时候为了不写周报,可以用自动化来写。
比如可以从jira 里面捞数据。比如可以统计excel 里面数据,生成图表,生成doc, 自动发出来。
最后听人说Python的docx包不错,专门对于window下的word进行操作,所以尝试下 对于Python的docx包,只能说功能非常强大,简单的说,可以用来创建/修改docx文档,对其标题、段落、表格、图片等进行处理,粗略扫了下,我的需求基本上都能满足,只是剩下如何用Python代码实现了
首先是安装,用pip安装即可:
pip install python-docx
Word文档比较复杂,是二进制文件,所以常规的读取文件方法是没用的,所以docx包用不同的文本类型来表示:最顶层是Document对象,其代表整个文档
block-level(块等级),段落是常见的块等级,换行符结尾算一个段落,表格、图片和标题均属于块对象;对于块对象属性,常见有对齐(alignment)、缩进(indent)以及行间距(space)等等
inline-level(内联等级),其属于块等级中,run是常见的内联等级,一个块对象可由多个run组成,特别是通过run可由设置不同属性样式;文字、句子、段落均可作为内联对象;对于内联对象属性,常见有字体、大小、对齐以及颜色等等
其实,如果用Python从头写一个word文档的话,对docx的包的一些用法的掌握需要熟练点,但函数和功能有点多(当然如果是一个简洁的word文档的话,那还是很简单的);因此我选择一个取巧的版本,先制作一个word模板,里面包含一些不需要更改的文章段落、标题以及目录等,并设置好字体、大小以及表头(包括表格的样式)等;这样的话,我只需要将一些动态变化的文字、图片以及表格内容填入对应位置即可
以下是相关操作的方法:
首先导入docx包相关函数(有点多),打开模板文件
from docx import Document
from docx.shared import Inches
from docx.shared import Cm
from docx.shared import Pt
from docx.shared import RGBColor
from docx.enum.text import WD_ALIGN_PARAGRAPH
from docx.enum.table import WD_ALIGN_VERTICAL
from docx.oxml.ns import qn
document = Document("./模板.docx")
读取docx文件中的所有段落,paragraphs是一个列表,里面存储了所有的段落信息;查看某个段落是什么内容,可以用text方法,生成的是str类型,Python中支持字符串操作的方法函数都可对其操作
paragraphs = document.paragraphs
print(paragraphs[10].text)
type(paragraphs[10].text)
插入文字定位可以分为两种方式,一种是通过指定插入的段落数,比如要在第10段落后面接着加上文字:
paragraphs[10].add_run("XXX")