python学习笔记之读取word文件库docx

最新推荐文章于 2024-07-20 09:55:03 发布

旋转小马

最新推荐文章于 2024-07-20 09:55:03 发布

阅读量1.5k

点赞数

分类专栏： python学习笔记文章标签： python docx python-docx python操作word文档 python提取word内容

本文链接：https://blog.csdn.net/u014543416/article/details/122101646

版权

python学习笔记专栏收录该内容

24 篇文章 4 订阅

订阅专栏

前面记录了两篇python操作pdf的文章，今天整理下python操作word文档的库docx，我遇到的需求是提取word中的文字内容，并匹配一些特定字符串，接下来先安装：

pip  install  docx # 经过测试，我直接安装docx，后续也能正常使用

# 在网上查找资料的时候，看网上很多人写的是要安装 python-docx
pip install python-docx

所以当我们遇到问题是，第一种安装方式如果行不通的话，就按照第二种方式来，我们是以结果为导向，以解决问题为目标。接下来是使用：

from docx import Document
doc = Document('文档.docx')  # 读取word文档（docx格式，目前不支持doc格式word）
doc.paragraphs              # 文档的所有段落
doc.paragraphs[0].text      # 文档第一段落提取字符串

jupyter输出如下：

对比原文档第一页内容:

第三段内容如下，第二段为换行符，为空内容：

这样我们循环所有的段落就可以把word文档的所有内容都可以提取出来了。

另外：docx库本身的功能非常强大，可以创建word文档，对文档进行编辑，并且设置格式，当我们有具体需求时再对其他功能进行测试。

其他功能用法参考链接：

Python-Docx库 | Word与Python的完美结合（附使用文档） - Python自动化办公社区的个人空间 - OSCHINA - 中文开源技术交流社区

python docx库的简单使用_Snowzhao的博客-CSDN博客_pythondocx库

旋转小马

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
python学习笔记之读取word文件库docx

前面记录了两篇python操作pdf的文章，今天整理下python操作word文档的库docx，我遇到的需求是提取word中的文字内容，并匹配一些特定字符串，接下来先安装：pip install docx # 经过测试，我直接安装docx，后续也能正常使用# 在网上查找资料的时候，看网上很多人写的是要安装 python-docxpip install python-docx所以当我们遇到问题是，第一种安装方式如果行不通的话，就按照第二种方式来，我们是以结果为导向，以解决问题为目标。接下来
复制链接

扫一扫