最近在工作中遇到了html文件转docx格式的需求,实现过程中发现了一款python-docx框架非常好用,虽做知识点整理。分享给大家!
参考框架连接:https://python-docx.readthedocs.io/en/latest/index.html#
在排版管理中,与字符内容无关的所有可视要素都可称之为『样式』,具体说来,包括字体、颜色、对齐、行间距等等。
在Word(以及带有文本编辑功能的Office软件)中,从样式应用的对象分,常用的样式类型有字符样式、段落样式、表格样式、枚举样式等。python-docx目前主要支持前三类,已经基本满足日常使用。
每种样式包含的内容主要有字体(包括字体名称、颜色、倾斜、加粗)和段落格式(缩进、分页模式)等。根据样式应用对象的不同,每类样式不一定包含所有的内容。例如,字符样式就没有段落格式这个内容。
Word有样式管理器,负责管理内建样式和用户自定义样式。python-docx可以操作这个管理器,把自定义的样式添加到管理器里,或者从管理器选取一个样式加以应用。
由于python-docx的样式设置并不能包含Word的所有样式设置。因此个人的建议是:
- 当你的操作只是涉及Word本身(例如批量整理文件格式),可以利用Word的图形界面设置好自定义样式,然后利用python-docx操作样式管理器,给特定的对象特定的样式。
- 当你的操作涉及Word之外的东西,而且对样式设置的要求不高(例如,HTML转Word,或者格式比较简单的文档,例如公文),可以使用python-docx直接设置样式。
- 如果你既不能用Word设置自定义样式(例如需要几百种样式类型),又对样式类型的设置要求很高,则不要用python-docx,考虑VBScript/VBA,或者win32com等功能完备的工具。
1. 创建样式和设置字体
游程对象、段落对象和表格对象都有一个成员Style,而这个Style有一个成员Font,包含了字体的所有设置。
如果凭空的创建一个Style,要使用Document对象的Styles集合的add_style方法。下面的例子里添加了10个段落,为每个段落创建一个新的Style。这些Style的区别是字号依次增加。