python 读取pdf cid_记一次为解决Python读取PDF文件的Shell操作

最新推荐文章于 2023-07-20 08:05:32 发布

VIP文章 weixin_39800331

最新推荐文章于 2023-07-20 08:05:32 发布

阅读量710

点赞数

文章标签： python 读取pdf cid

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39800331/article/details/113644518

版权

一、背景

本想将 PDF 文件转换为 Word 文档，然后网上搜索了一下发现有挺多转换的软件。有的是免费的、收费，咱也不知哪个好使，还得一个个安装试用。先不说能不解决问题，就这安装试用想想就脑壳疼。便想起了"Python 大法"，随即搜了几篇看起来比较完整的博客，二话不说粘贴复制，改改运行试试。使用环境(python3.6+pdfminer3k)，代码这里就不放出来了。

二、问题

运气不好，这一试就报错WARNING:root:GBK-EUC-H，然后又搜了一下有同样的报错问题，但是这篇博客没啥大用，仅仅是知道缺了相关的字体文件，通过其中的链接顺藤摸瓜找到了 github 上的字体文件列表页

https://github.com/euske/pdfminer/tree/f1d5d681b6d2ab0ddeaea925ba784ebb94f6d509/pdfminer/cmap

三、解决

下载了报错的对应文件 GBK-EUC-H.pickle.gz，然后将其文件解压把放置 Python 的安装目录下 Lib\site-packages\pdfminer\cmap 路径中，再次运行又报错 "pdfminer.converter:undefined: , 3027". 想想等下有报错还得下，索性全部下下来。

四、一顿分析及 Shell 操作

1.先网页 F12 打开控制台分析 Element 元素，Xpath 信息 "//td[@class=‘content‘]/span/a/@href"

最低0.47元/天解锁文章

weixin_39800331

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 读取pdf cid_记一次为解决Python读取PDF文件的Shell操作

一、背景本想将 PDF 文件转换为 Word 文档，然后网上搜索了一下发现有挺多转换的软件。有的是免费的、收费，咱也不知哪个好使，还得一个个安装试用。先不说能不解决问题，就这安装试用想想就脑壳疼。便想起了"Python 大法"，随即搜了几篇看起来比较完整的博客，二话不说粘贴复制，改改运行试试。使用环境(python3.6+pdfminer3k)，代码这里就不放出来了。二、问题运气不好，这一试就报错...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。