python读取word element_Python：通过解析word将文本从docx提取到txt/文档.xm

weixin_39732534

于 2021-01-13 19:55:43 发布

阅读量656

点赞数

文章标签： python读取word element

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39732534/article/details/112893352

版权

我想从docx文件提取文本到简单的txt文件。

我知道这个问题可能看起来很简单或者很琐碎(我希望会是这样)，但我浏览了几十个论坛主题，花了几个小时试图自己解决，但没有找到解决办法。。。在

如果我需要没有格式的内容，它可以完美地工作。但是。。。

因为我的文档包含简单的表格，所以我需要它们通过简单的表格来保持格式。

所以不是这样：Name

Age

Wage

John

30

2000

这应该出现在：Name Age Wage

John 30 2000

为了不滑到对方，我喜欢双标签较长的行。

我稍微研究了一下XML结构，发现表中的新行用tr表示，列用tc表示。

所以我试着千方百计地修改它，但是没有成功。。。

虽然它不是真的起作用，但我还是照搬了我的想法来解决问题：from lxml.html.defs import form_tags

try:

from xml.etree.cElementTree import XML

except ImportError:

from xml.etree.ElementTree import XML

import zipfile

WORD_NAMESPACE='{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'

PARA = WORD_NAMESPACE + 'p'

TEXT = WORD_NAMESPACE + 't'</

最低0.47元/天解锁文章

weixin_39732534

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python读取word element_Python：通过解析word将文本从docx提取到txt/文档.xm

我想从docx文件提取文本到简单的txt文件。我知道这个问题可能看起来很简单或者很琐碎(我希望会是这样)，但我浏览了几十个论坛主题，花了几个小时试图自己解决，但没有找到解决办法。。。在如果我需要没有格式的内容，它可以完美地工作。但是。。。因为我的文档包含简单的表格，所以我需要它们通过简单的表格来保持格式。所以不是这样：NameAgeWageJohn302000这应该出现在：Name Ag...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。