OCR应用和PDF操作

最新推荐文章于 2023-07-28 14:21:51 发布

甜甜的小青柚

最新推荐文章于 2023-07-28 14:21:51 发布

阅读量476

点赞数

分类专栏： python 文章标签： python 正则表达式字符串 ocr xpdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34404407/article/details/112494453

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数字识别与文件重命名

介绍

本文主要介绍一个OCR项目，本项目采用谷歌pytest数字识别引擎，进行实际应用开发。

挑战

本文需实现从jpg格式图片上识别出固定内容数字字符串，并用此字符串，将jpg文件重命名。
同时需要考虑文件遍历问题，文件夹嵌套问题，重命名文件已经存在等问题。

方案

图片数字识别重命名

直接采用OCR识别照片上文字，并且结合正则表达式，获得需要内容。jpg-reneme.py用于识别学号信息，对图片进行重命名。可以迭代文件夹
，参数为最外层文件夹。

已有OCR文本，进行重命名

jpg文件有配套识别出来的TXT文件，这种情况，直接通过正则表达式，提取需要的内容，对对应的jpg文件进行重命名，同时将TXT文件删除。txt-rename.py根据txt
文件内容对jpg文件进行重命名和删除操作。

文件操作

移动

有时候碰到文件夹嵌套过于复杂，将最里层子文件夹提取出来，都集中放到上层文件夹，方便查看和处理。

删除指定图片

其中有许多不需要的文件，通过识别jpg文件的内容，根据是否匹配到对应字符串删除对用文件。
dele.py用于删除学生成绩表，通过字符识别，判断字符串中是否含有学生两个字，来进行删除相应的图片。
图片可以嵌套放在子文件夹中，传入参数为外层大文件夹

文件夹重命名

将文件夹按照指定格式，序列化重命名。dirrename.py用于将卷文件夹格式化为序列化命名
，新文件夹格式名：A-2020-JX14-Y-{str(i).zfill(3)}，对子文件夹命名，参数为外层大文件夹

移动文件

将所有文件移动到上一层文件夹中。mov.py用于将个人文件夹的图片文件移动到班级文件夹中，参数为年级大文件夹。

PDF文件处理和信息自动化著录

##介绍
本项目主要进行学生信息的合并著录处理，涉及到PDF文件拆分，合并，核对校验，添加照片，以及著录信息。

挑战

本项目需要将三个PDF文件，即学籍卡，成绩表，学位证明，三个文件拆分成单个人的，然后按照学号进行合并。

方案

通过PDF模块进行PDF的拆分，合并操作。中间需要通过正则表达式来获取学号信息，和其他信息。

mergemov.py合并PDF文件到一个文件夹

将下载下来的文件按照相同的专业合并学籍卡，学位证，成绩表合并到一个子文件夹中，每个专业一个子文件夹
####　debug.pyPDF文件检查
查找打不开的PDF文件，以及缺失的PDF文件，查找每个班级3个PDF中的问题。

PDFread.py将班级PDF拆分合并

将每个班级的三个PDF文件拆分为单个人的文件，然后通过学号进行合并，每个人一个PDF

pdf.py为PDFread的高层API

调用PDFread接口进行pdf合并
源文件命名需分别包含学籍卡，成绩表，学位证字符串

pdfgui.py项目的gui界面

PDF合并的的界面程序，集成整个项目的多个步骤，合并，著录，添加照片，改名。调用pdf.py，pdfaddimg.py，recordtoexcel.py，pdfrename.py
需要学生信息对照表，表中没有的信息可以打开pdf文件进行查找

pdfrename.py个人pdf文件重命名

pdf重命名，将pdf文件序列化命名并且拼接上其问价夹名

recordtoexcel.py著录

读取案卷内pdf文件名，文件名为学生学号；
在学生信息表中查找对用信息，著录卷内Excel表；
信息表中没有信息的通过pdf文件直接获取

pdfaddimg.py在pdf中添加照片

通过索引查找每个同学的照片，插入到pdf中

pagenumber.py获取pdf的页数，写入Excel中

获取每个学生pdf文件页数，写入一个空白Excel中，同时查看小于4页的、
有可能是写的年份有错误，最后合并到卷内Excel中

甜甜的小青柚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OCR应用和PDF操作

数字识别与文件重命名介绍本文主要介绍一个OCR项目，本项目采用谷歌pytest数字识别引擎，进行实际应用开发。挑战本文需实现从jpg格式图片上识别出固定内容数字字符串，并用此字符串，将jpg文件重命名。同时需要考虑文件遍历问题，文件夹嵌套问题，重命名文件已经存在等问题。方案图片数字识别重命名直接采用OCR识别照片上文字，并且结合正则表达式，获得需要内容。jpg-reneme.py用于识别学号信息，对图片进行重命名。可以迭代文件夹，参数为最外层文件夹。已有OCR文本，进行重命名jpg文件
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。