用Python实现对批量PDF扫描文件进行读取并重新命名

随便丶冰激凌

于 2024-10-26 01:02:19 发布

阅读量1.9k

点赞数 33

文章标签： pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46332458/article/details/143245291

版权

用Python实现对批量PDF扫描文件进行读取并重新命名

在工作中，有时候会有大量的截图、拍照数据需要提取，传统只能人工录入。但随着人工智能的发展，OCR技术已经可以实现了图片的文字识别，本文将详细讲述如何用Python实现对批量PDF扫描文件进行读取并重新命名。

目标是从扫描的PDF文件中使用OCR技术提取关键字，并根据这些关键字来重命名文件。本程序将批量扫描的PDF文件放在一个文件夹中，使用OCR(光学字符识别)技术从扫描的PDF文件中识别提取关键字，并且根据关键字重新命名文件，大幅提升我们的工作效率。

<1> 使用pip安装依赖包

使用pytesseract包的第一步是使用pip安装该软件包。在命令提示符环境中，输入如下指令：

pip install pytesseract

看到Successfully表示pytesseract包安装成功。

<2> 安装window配套软件包

有三种方法安装

1.点击连接直接安装Home · UB-Mannheim/tesseract Wiki · GitHub。如下：

2.进入https://digi.bib.uni-mannheim.de/tesseract/网站，下载对应版本的软件。如下：

3.访问Tesseract官网（

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。