如何在程序中解析获取word文档(docx格式)的文本内容

原理

docx格式的word文档其实是一个压缩包,文本内容、格式、图片等是分别存储在不同的文件中的,office通过这些文件还原出我们所看到的word文档。下面以一个简单的示例来说明docx格式。

示例
  1. 首先我们新建一个word文档,在里边写上“文档测试”,然后插入一张图片。
    在这里插入图片描述
  2. 然后我们把该文档的后缀改为“.zip”,使用压缩软件打开,可以看到里边的目录结构。
    在这里插入图片描述
  3. word文件夹中存储的是文档内容,如下图:
    在这里插入图片描述
    media文件夹的内容如下,正是我们插入的图片:
    在这里插入图片描述
    document.xml的格式如下,可以看到我们的文本内容是包裹在<w:t></w:t>标签中的。
    在这里插入图片描述
总结

用程序来提取文本内容,先要解压缩,然后再解析document.xml文件,提取出<w:t></w:t>标签中的 内容。


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值