前面记录了两篇python操作pdf的文章,今天整理下python操作word文档的库docx,我遇到的需求是提取word中的文字内容,并匹配一些特定字符串,接下来先安装:
pip install docx # 经过测试,我直接安装docx,后续也能正常使用
# 在网上查找资料的时候,看网上很多人写的是要安装 python-docx
pip install python-docx
所以当我们遇到问题是,第一种安装方式如果行不通的话,就按照第二种方式来,我们是以结果为导向,以解决问题为目标。接下来是使用:
from docx import Document
doc = Document('文档.docx') # 读取word文档(docx格式,目前不支持doc格式word)
doc.paragraphs # 文档的所有段落
doc.paragraphs[0].text # 文档第一段落提取字符串
jupyter输出如下:
对比原文档第一页内容:
第三段内容如下,第二段为换行符,为空内容:
这样我们循环所有的段落就可以把word文档的所有内容都可以提取出来了。
另外:docx库本身的功能非常强大,可以创建word文档,对文档进行编辑,并且设置格式,当我们有具体需求时再对其他功能进行测试。
其他功能用法参考链接:
Python-Docx库 | Word与Python的完美结合(附使用文档) - Python自动化办公社区的个人空间 - OSCHINA - 中文开源技术交流社区