在页面上现实word文件的内容
1.首先选择python-docx这个库 用来解析docx文件
2.安装很方便 直接pip就可以
3.在word中,识别一个自然段,就是一个paragraph ,用最简单的方式
docx.paragraphs
4.而且这个是一个可以迭代的对象,可以获得全部段落
p=docx.paragraphs[0]
5.就可以直接获得文章中的第一段
p.text 就是第一段的全部文字内容,如果连贯起来,代码是这样的:
for p in docx.paragraphs: print(p.text)
这样迭代出来的应该是没有任何格式了
6.在paragraph里面,这些东西叫做run 一个段落是由多个run组成的
p.runs 也是一个可以迭代的对象 可以循环获得每个run相关的内容
7.比如alignment 对齐方式。 bold 加粗。 italic斜体。 等
8.python-docx这个包,不仅可以读出paragraph的内容,还可以往里面写。
可以使用add_paragraph()方法来添加内容