pdf扫描件的自动识别重命名,拆分,建文件夹归档程序

3种使用方法,分别对应开始处理123。方法一和方法二需先自己对pdf进行一些处理,但是速度快,多次重复归档也方便,基本上一千多页只要一两分钟。最推荐方法二。

方法三操作最少,pdf扫描件直接就可以处理了,但是这个会调用paddleocr,每页都得弄一二十秒,重复归档的话,每次得重新识别。这个确实是操作最少的。其实用多线程识别的话,速度会快一些,但有时会出错,就没用多线程。

下面是方法3的使用过程。

程序很粗犷,解压要10分钟,耐心等待。

资源

通过网盘分享的文件:归档程序1.2.zip
链接: https://pan.baidu.com/s/1KnEgEXb7qLNNgavHCvn-Sw?pwd=1111 提取码: 1111

效果

 查看自己指定的归档的文件夹,文件都重命名在里面的,可以自动拆页的

再看一眼源文件,是这样的

开始使用

解压完双击即可。 

出现两个黑窗口,不要关闭,ctrl+c复制弹出的网址,粘贴到浏览器enter就行了

浏览器出现这个页面,按标记填

示例

然后依次点击

点击开始处理后会弹出处理完毕,是假的,只是一个提示,有一个黑窗口会显示进度

大概10几秒一页

黑窗口出现归档完毕,才是真的完毕

查看自己写的归档的文件夹,文件都重命名在里面的,可以自动拆页的

再看一眼源文件,是这样的

我这例子里不止混凝土抗压强度报告,懒得写其它,大概就是有几种报告就得点123切换,每种报告写一个,每种报告都得点一次提交,这里没把每种报告都写一遍,没识别到的报告就会附在前一页。意思就是假如你的报告是几页一份的,就在第一页找独特字,这样就会把后几页默认附在第一页后,几页一份的报告也能处理。

注意事项

把python,java,node硬塞进去。无需安装,解压既用。python下载了paddleocr,可自动识别扫描件文字。由于是硬塞的各种环境,文件很多很大估计2个多g,解压要10分钟,源代码也都塞进去了,可以自己改。

方法2怎么获得经过ocr识别的pdf,用wps,要开vip

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值