python-docx库读写word文档
一、简介
python-docx
是利用python来读写word文件的第三方库。
- 开源地址是:https://github.com/python-openxml/python-docx
- 官方教程:https://python-docx.readthedocs.io/en/latest/
- 安装:
pip install python-docx
python-docx
库读写word文档主要涉及三个结构对象,层层递进。
Document
:文档对象
from docx import Document
doc = Document('./test1.docx') # 打开当前路径下的已有文档
doc = Document() # 新建一个空白文档
Paragraph
:段落对象
文档中的每一段内容,以换行符结尾。
Run
:文字块对象
每个Paragraph
中的不同部分,叫Run
。注意:颜色、字体、粗细、斜体不同,就是不同的文字块。
二、读取word文档内容
利用python-docx
库来读取现有的word文档数据,思路是先逐层获取对象,再提取相应对象的text
属性。
1.读取纯文字docx文档。
for paragraph in doc.paragraphs:
print(f'paragraph.text = {
paragraph.text}')
for run in paragraph.runs:
print(f'\trun.text = {
run.text}')
# output
paragraph.text = 你好,这是第一个测试python-docx库的文档。
run.text = 你好,这是第一个测试python-docx库的文档。
paragraph.text = 这是第二段落
run.text = 这是第二段落
paragraph.text = 这是第三段落,粗体、红色
run.text = 这是第三段落,
run.text = 粗体
run.