主要涉及的内容为 python-docx ,一款可以操作 Word 文档(仅支持 docx)的第三方库。
Python中用于处理微软Office文档的模块对应有3个:
- python-docx,处理标准docx文档
- python-pptx,处理标准pptx文档
- openpyxl,处理xlsx文档
注意python-docx 不支持 doc 文档,如果使用 doc 文档,需要提前将其用 Word 相关软件转换为 docx 格式。 doc 和 docx 是存在差异,一个是二进制,另一个 XML 格式的文件。
模块的安装
pip install python-docx
创建文档并保存
from docx import Document
# 创建Document对象,等同于打开一个word文