上一篇,学习了是用python的docx库创建一个word文档,并且编辑了标题和正文。本篇继续python操作word之旅:利用python来获取word文档的内容。
python脚本:
# -*- coding: utf-8 -*-
import os
import sys
import time
import docx
from docx.shared import RGBColor
from docx.shared import Pt
#提取word文档的内容
def fetch_doc():
doc_name = "念奴娇_赤壁怀古.docx"
doc = docx.Document(doc_name)
title=doc.paragraphs[0] #获取标题
for run in title.runs:
print("run=",run)
print(run.text)
for paragraph in doc.paragraphs: #获取所有的paragraphs
print("text==",paragraph.text)
if __name__ == '__main__':
#create_doc()
fetch_doc()
运行结果:
% python word_util.py
run= <docx.text.run.Run object at 0x10f157790>
念奴娇·赤壁怀古
text== 念奴娇·赤壁怀古
text== 大江东去,浪淘尽,千古风流人物。
故垒西边,人道是,三国周郎赤壁。
乱石穿空,惊涛拍岸,卷起千堆雪。
江山如画,一时多少豪杰。
遥想公瑾当年,小乔初嫁了,雄姿英发。
羽扇纶巾,谈笑间,樯橹灰飞烟灭。
故国神游,多情应笑我,早生华发。
人生如梦,一尊还酹江月。
说明:
docx.Document(doc_name):带参数的Document相当于获取一个已经存在的word文档;
doc.paragraphs:就是所有的 文档内容,包括标题;
paragraph.text:某一个内容的文本。