python下wordpdf转换总结

最新推荐文章于 2024-06-03 09:30:44 发布

技术修行

最新推荐文章于 2024-06-03 09:30:44 发布

阅读量844

点赞数

分类专栏：图像标注工具使用工具开发大数据文章标签： pdf转换 doc转换

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duanshao/article/details/79753131

版权

大数据同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

python下wordpdf转换总结

近期涉及到了关于doc文档读取的处理，也查了很久，为了便于大家使用，故集大成一下。

Doc文档读取有如下几种：

1、从doc读取文本

目前没有找到直接的方式，一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用)，或人工另存处理。

还有可以用antiword(依赖linux环境)，使用“./antiword” + doc文件名即可读取文件内容。

2、从docx读取文本

一般使用python-docx库的方法，但只支持创建新文档和读取一些基本的文件数据，如文件大小和文件标题，不支持正文读取。

或直接从docx中读取xml的方法。

3、从pdf读取文本

一般使用pdfminer3k库或pyPdf库。其中pyPdf用起来其实稍显麻烦，很多操作不够方便。pdfminer 对表格不友好，也可以将 PDF 转换为 text 文本，还可以转换为 HTML 等带有标签的文本。

还有一种可以用pdf2htmlex(非python)，先把pdf转html，接下来再用bs4来解析处理。这样的好处是处理html的工具非常非常丰富，且pdf2htmlex对原页面的效果保持得特别好，特别是对于那些个用word和latex导出的pdf里，大量数据图表里的标签可以很方便地提取所需的值。

4、把pdf中图存为jpg文件

一般可以使用PythonMagick库。

以上的代码处理，均在https://github.com/renwoxing2016/。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python下wordpdf转换总结

python下wordpdf转换总结近期涉及到了关于doc文档读取的处理，也查了很久，为了便于大家使用，故集大成一下。Doc文档读取有如下几种：1、从doc读取文本目前没有找到直接的方式，一般是先转为docx文件在处理。所使用工具为doc2doc(批量时可用)，或人工另存处理。还有可以用antiword(依赖linux环境)，使用“./antiword” + doc文件名即可读取文件...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。