最近学 Python 的一部分原因是我想用Python的docx包来写一个自动化生成word报告的脚本(需求产生动力),本来是打算用rmarkdown来出报告的,其对网页版支持比较好(样式也好看),对PDF支持也不错(毕竟可以依靠latex),但是对于word的可操作性并是不很好(可能使用的比较粗糙);最后听人说Python的docx包不错,专门对于window下的word进行操作,所以尝试下
对于Python的docx包,只能说功能非常强大,简单的说,可以用来创建/修改docx文档,对其标题、段落、表格、图片等进行处理,粗略扫了下,我的需求基本上都能满足,只是剩下如何用Python代码实现了
首先是安装,用pip安装即可:
pip install python-docx
Word文档比较复杂,是二进制文件,所以常规的读取文件方法是没用的,所以docx包用不同的文本类型来表示:
最顶层是Document对象,其代表整个文档
block-level(块等级),段落是常见的块等级,换行符结尾算一个段落,表格、图片和标题均属于块对象;对于块对象属性,常见有对齐(alignment)、缩进(indent)以及行间距(space)等等
inline-level(内联等级),其属于块等级中,run是常见的内联等级,一个块对象可由多个run组成,特别是通过run可由设置不同属性样式;文字、句子、段落均可作为内联对象;对于内联对象属性,常见有字体、大小、对齐以及颜色等等
其实,如果用Python从头写一个word文档的