python 操作word文档_python操作word文档

最新推荐文章于 2023-05-19 11:41:10 发布

weixin_39633134

最新推荐文章于 2023-05-19 11:41:10 发布

阅读量114

点赞数

文章标签： python 操作word文档

需求

根据Word模板，生成数据报告。

发现

升级python3的pip，以管理员身份运行：pip3 install --upgrade pip

python3操作Word的库：

pip3 install python-docx、import docx：只对windows平台有效

pip3 install pypiwin32、import win32com：跨平台，但无法处理doc格式的word文本，doc格式不是基于xml的

pip3 install textract、import textract：它同时兼顾“doc”和“docx”，但安装过程需要一些依赖。

在安装textract的时候，提示缺少swig.exe：error: command 'swig.exe' failed: No such file or directory install textract。下载swig.exe的Windows版，注意配置完path之后要记得重启cmd。

但实际使用中又遇到一些问题，主要是python对Windows平台的不兼容问题。比如echo在Windows上是一个内置在cmd的命令，比如Windows没有fork等等问题，比如Windows上没有antiword，而实际上textract就是调用了antiword来处理Word。

所以我打算先将doc转为docx，然后再用python-docx处理。在使用docx直接输出所有段落的时候发现很多表格都不见了：

import docx

def read_docx(file_name):

doc = docx.Document(file_name)

content = '\n'.join([para.text for para in doc.paragraphs])

return content

这是因为表格和段落分别使用了不同的对象进行存储。

经过两天的学习，终于使用docx库完成了对docx格式的文件的提取信息，以及自动化编辑word模板。

官方资料：

详细编程需求以及解决过程

根据一个段落标题，定位位于其下的表格

因为paragraphs和tables是完全分开的，所以需要其他的办法，在谷歌之后找到答案：

其他资料：

weixin_39633134

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。