扫描型PDF转成可搜索可复制的文字型PDF,使用PDF24 OCR 程序报“下载需要的文件时出现一个错误”

1、PDF工具 -- PDF24 

需要找一个将扫描型的PDF转换成可搜索可复制的PDF文件的工具,搜到的大部分工具我都试用了,要么转换出来样式不行,要么收费。然后找到了一个下图所示的PDF24 的工具,PDF24提供很多精心裁剪的针对特定问题的工具。所有的PDF工具 - 100%免费 - PDF24 Tools

其中的PDF 文本识别工具可将扫描型的PDF转换成可搜索可复制的PDF文件。PDF24提供在线和离线两种方式。

 使用PDF 文本识别工具 ,在线转换文件 通过OCR识别文本 - 简便,在线,免费 - PDF24 Tools

 下载离线版本的PDF24 Creator PDF24 Creator - 下载 - 100%免费 - PDF24 Tools

网页版的可以正常使用,推荐使用网页版的。

2、PDF24 OCR程序报错

使用离线版本的PDF24 OCR时出现问题,本文主要记录如何解决下图的问题。

本文使用的是11.4.0的私人版本

 在手册中找到关于pdf24-Ocr.exe下的所有语言文件的本地安装方法

解决步骤  

所需文件下载地址 :https://download.csdn.net/download/ZMJ_QQ/87361516

1、将trainDataList.txt放入PDF24安装目录的tesseract文件夹。(官网下载地址https://creator.pdf24.org/tesseract/4.0/traindata/local-list.txt

 2、将tessdata-master文件夹下的所有文件复制到 tessdata 文件夹下。

另外手册中说的 osd.traineddata文件就在解压的语言包中,不需要找

请确保您使用与 Tesseract 4.0 兼容的语言文件。语言文件可以从 GitHub 上的 tesseract 项目下载。

贴一个github上的项目地址(方法测过了,文件下载失败。如果后期还是无法下载可以使用上文给出的文件)GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

3、完成上面两步后再重新打开PDF24 OCR,添加文件后点击开始后即可正常使用,如下图所示

 文章可能写的啰嗦,如果后期我的语言文件不生效,可以到官方手册中查找语言文件下载的方法。

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值