上一篇,学习了是用python的docx库创建一个word文档,并且编辑了标题和正文。本篇继续python操作word之旅:利用python来获取word文档的内容。
python脚本:
# -*- coding: utf-8 -*-
import os
import sys
import time
import docx
from docx.shared import RGBColor
from docx.shared import Pt
#提取word文档的内容
def fetch_doc():
doc_name = "念奴娇_赤壁怀古.docx"
doc = docx.Document(doc_name)
title=doc.paragraphs[0] #获取标题
for run in title.runs:
print("run=",run)
print(run.text)
for paragraph in doc.paragraphs: #获取所有的paragraphs
print("text==",paragraph.text)
if __name__ == '__main__':
#create_doc()
fetch_doc()
运行结果:
% python word_util.py
run= <docx.text.run.Run object at 0x10f157790>
念奴娇·赤壁怀古
text== 念奴娇·赤壁怀古
text== 大江东去,浪淘尽,千古风流人物。
故垒西