1、python-docx库介绍
-
该模块儿可以创建、修改Word(.docx)文件;
-
此模块儿不属于python标准库,需要单独安装;
-
python-docx使用官网:python-docx官网
-
我们在安装此模块儿使用的是pip install python-docx,但是在导入的时候是import docx;
2、Python读取Word文档内容
-
注意:每进行一个操作,必须保存一下,否则等于白做;
1)word文档结构介绍
2)python-docx提取文字和文字块儿
① python-docx提取文字
有一个这样的docx文件,我们想要提取其中的文字,应该怎么做?
代码如下:
from docx import Document
doc = Document(r"G:\6Tipdm\7python办公自动化\concat_word\test1.docx")
print(doc.paragraphs)
for paragraph in doc.paragraphs:
print(paragraph.text)
结果如下:
② python-docx提取文字块儿
from docx import Document
doc = Document(r"G:\6Tipdm\7python办公自动化\concat_word\test1.docx")
print(doc.paragraphs)
paragraph = doc.paragraphs[0]
runs = paragraph.runs
print(runs)
for run in paragraph.runs:
print(run.text)
------------------------------
paragraph = doc.paragraphs[1]
runs = paragraph.runs
print(runs)
for run in paragraph.runs:
print(run.text)
结果如下: