pdf 扫描版转文字版方法

kee_ke

已于 2024-04-20 22:35:22 修改

阅读量2.3k

点赞数

分类专栏： pdf 文章标签： tips

于 2022-06-22 21:43:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41891666/article/details/125417232

版权

pdf 专栏收录该内容

1 篇文章

订阅专栏

本文分享了如何使用OCRmyPDF库在Linux和Windows（通过WSL）上进行PDF转Word操作，包括安装步骤、中文支持和处理扫描版PDF的方法，以及Adobe Acrobat Pro DC的替代方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一开始用网上说的 pdf 转 word , word 转 pdf ，转过来发现还是扫描版的🤣。

然后找到这个项目：https://github.com/ocrmypdf/OCRmyPDF

直接三步（ linux 下，windows 下使用 Windows Subsystem for Linux ）：

1.安装 OCRmyPDF : apt-get install ocrmypdf

2.安装中文支持：apt-get install tesseract-ocr-chi-sim

3.ocrmypdf -l eng+chi_sim --force-ocr input.pdf output.pdf
(转化的时候出现 WARNING 正常，还有就是 OCR 识别之后卡住也是正常的，等等就行了）

另外有钱的话，整个 Adobe Acrobat Pro DC ，可以直接转化。（不过巨贵，另外破解版一时半会也没找到，所以还是用开源的香）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。