PDF转TXT免费脚本

背景说明

前几天(2018.11.11之前)严锋老师在微博上询问有没有什么软件可以完成扫描版PDF OCR转录成TXT的免费软件。从网友的回复来看,似乎仍然没有一款软件能满足上述的全部需求(免费且好用)。鉴于最近调用了腾讯的通用OCR API做文字识别,那么为什么不自己写个脚本完成这个任务呢?

况且在日常的生活中,我们经常会有需求需要将一些(盗版的)扫描PDF转录成更容易阅读和格式调整的纯文本格式,所以就有了这么一个小项目。

脚本说明

本脚本为python脚本,使用的库包括json,pillow和pdf2image等。从PDF转成TXT的关键步骤OCR识别则是调用了腾讯的通用ocr识别api。

如果你对于python有一定的了解,或者有足够的精力和兴趣折腾,欢迎尝试使用。如果感觉还不错,欢迎提供点星;如果觉得不好,也欢迎留言提供建议。

脚本链接

github地址:https://github.com/wangx404/PDF2TXT

请注意,本脚本所使用协议为GPL2.0,请勿将其用于商业用途。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值