扫描型PDF转成可搜索可复制的文字型PDF，使用PDF24 OCR 程序报“下载需要的文件时出现一个错误”

～Serendipity～

已于 2023-01-04 08:54:29 修改

阅读量3.6k

点赞数 9

文章标签：前端

于 2022-09-20 16:58:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZMJ_QQ/article/details/126952422

版权

1、PDF工具 -- PDF24

需要找一个将扫描型的PDF转换成可搜索可复制的PDF文件的工具，搜到的大部分工具我都试用了，要么转换出来样式不行，要么收费。然后找到了一个下图所示的PDF24 的工具，PDF24提供很多精心裁剪的针对特定问题的工具。所有的PDF工具 - 100％免费 - PDF24 Tools

其中的PDF 文本识别工具可将扫描型的PDF转换成可搜索可复制的PDF文件。PDF24提供在线和离线两种方式。

使用PDF 文本识别工具，在线转换文件通过OCR识别文本 - 简便，在线，免费 - PDF24 Tools

下载离线版本的PDF24 Creator PDF24 Creator - 下载 - 100％免费 - PDF24 Tools

网页版的可以正常使用，推荐使用网页版的。

2、PDF24 OCR程序报错

使用离线版本的PDF24 OCR时出现问题，本文主要记录如何解决下图的问题。

本文使用的是11.4.0的私人版本

在手册中找到关于pdf24-Ocr.exe下的所有语言文件的本地安装方法

解决步骤

所需文件下载地址：https://download.csdn.net/download/ZMJ_QQ/87361516

1、将trainDataList.txt放入PDF24安装目录的tesseract文件夹。（官网下载地址https://creator.pdf24.org/tesseract/4.0/traindata/local-list.txt

2、将tessdata-master文件夹下的所有文件复制到 tessdata 文件夹下。

另外手册中说的 osd.traineddata文件就在解压的语言包中，不需要找

请确保您使用与 Tesseract 4.0 兼容的语言文件。语言文件可以从 GitHub 上的 tesseract 项目下载。

贴一个github上的项目地址（方法测过了，文件下载失败。如果后期还是无法下载可以使用上文给出的文件）GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

3、完成上面两步后再重新打开PDF24 OCR，添加文件后点击开始后即可正常使用，如下图所示

文章可能写的啰嗦，如果后期我的语言文件不生效，可以到官方手册中查找语言文件下载的方法。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。