OCR应用和PDF操作

数字识别与文件重命名

介绍

本文主要介绍一个OCR项目,本项目采用谷歌pytest数字识别引擎,进行实际应用开发。

挑战

本文需实现从jpg格式图片上识别出固定内容数字字符串,并用此字符串,将jpg文件重命名。
同时需要考虑文件遍历问题,文件夹嵌套问题,重命名文件已经存在等问题。

方案

图片数字识别重命名

直接采用OCR识别照片上文字,并且结合正则表达式,获得需要内容。jpg-reneme.py用于识别学号信息,对图片进行重命名。可以迭代文件夹
,参数为最外层文件夹。

已有OCR文本,进行重命名

jpg文件有配套识别出来的TXT文件,这种情况,直接通过正则表达式,提取需要的内容,对对应的jpg文件进行重命名,同时将TXT文件删除。txt-rename.py根据txt
文件内容对jpg文件进行重命名和删除操作。

文件操作

移动

有时候碰到文件夹嵌套过于复杂,将最里层子文件夹提取出来,都集中放到上层文件夹,方便查看和处理。

删除指定图片

其中有许多不需要的文件,通过识别jpg文件的内容,根据是否匹配到对应字符串删除对用文件。
dele.py用于删除学生成绩表,通过字符识别,判断字符串中是否含有学生两个字,来进行删除相应的图片。
图片可以嵌套放在子文件夹中,传入参数为外层大文件夹

文件夹重命名

将文件夹按照指定格式,序列化重命名。dirrename.py用于将卷文件夹格式化为序列化命名
,新文件夹格式名:A-2020-JX14-Y-{str(i).zfill(3)},对子文件夹命名,参数为外层大文件夹

移动文件

将所有文件移动到上一层文件夹中。mov.py用于将个人文件夹的图片文件移动到班级文件夹中,参数为年级大文件夹。

PDF文件处理和信息自动化著录

##介绍
本项目主要进行学生信息的合并著录处理,涉及到PDF文件拆分,合并,核对校验,添加照片,以及著录信息。

挑战

本项目需要将三个PDF文件,即学籍卡,成绩表,学位证明,三个文件拆分成单个人的,然后按照学号进行合并。

方案

通过PDF模块进行PDF的拆分,合并操作。中间需要通过正则表达式来获取学号信息,和其他信息。

mergemov.py合并PDF文件到一个文件夹

将下载下来的文件按照相同的专业合并学籍卡,学位证,成绩表合并到一个子文件夹中,每个专业一个子文件夹
#### debug.pyPDF文件检查
查找打不开的PDF文件,以及缺失的PDF文件,查找每个班级3个PDF中的问题。

PDFread.py将班级PDF拆分合并

将每个班级的三个PDF文件拆分为单个人的文件,然后通过学号进行合并,每个人一个PDF

pdf.py为PDFread的高层API

调用PDFread接口进行pdf合并
源文件命名需分别包含学籍卡,成绩表,学位证字符串

pdfgui.py项目的gui界面

PDF合并的的界面程序,集成整个项目的多个步骤,合并,著录,添加照片,改名。调用pdf.py,pdfaddimg.py,recordtoexcel.py,pdfrename.py
需要学生信息对照表,表中没有的信息可以打开pdf文件进行查找

pdfrename.py个人pdf文件重命名

pdf重命名,将pdf文件序列化命名并且拼接上其问价夹名

recordtoexcel.py著录

读取案卷内pdf文件名,文件名为学生学号;
在学生信息表中查找对用信息,著录卷内Excel表;
信息表中没有信息的通过pdf文件直接获取

pdfaddimg.py在pdf中添加照片

通过索引查找每个同学的照片,插入到pdf中

pagenumber.py获取pdf的页数,写入Excel中

获取每个学生pdf文件页数,写入一个空白Excel中,同时查看小于4页的、
有可能是写的年份有错误,最后合并到卷内Excel中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据库系统工程师教材的高清OCR带书签的PDF是一种电子文档格式,具有高清的图像质量并经过光学字符识别OCR)的处理。它不仅提供了清晰可读的文字和图表,还具备了书签功能。 首先,高清表示该PDF文件使用了高分辨率的扫描设备进行了数字化处理,因此在显示和打印时文字和图像都非常清晰且细节丰富。这对于数据库系统工程师来说非常重要,因为他们需要仔细研究和理解教材中的概念和原理,并进行相关实践操作。高清的PDF使得这一过程更加轻松和有效。 其次,OCR技术的应用使得PDF中的文字内容可以被计算机程序解析和处理。这意味着数据库系统工程师可以通过搜索、复制和粘贴等操作,方便地提取和处理教材中所涉及的代码、命令和示例。这样的处理方式极大地提高了工作效率,使得数据库系统工程师能够更好地利用教材并且快速掌握相关内容。 最后,书签功能是高清OCR带书签的PDF的一项重要特性。通过添加书签,数据库系统工程师可以标记重点章节或者特定内容,方便他们以后回顾和定位。这对于备考和提醒自己重要知识点非常有帮助。此外,书签还可以帮助数据库系统工程师更好地组织和分类教材内容,以便更快速地查找和阅读所需部分。 综上所述,数据库系统工程师教材的高清OCR带书签的PDF对于学习和实践数据库系统工程师技能非常有价值。通过提供高清的显示质量、OCR文本处理和书签功能,该PDF格式能够帮助工程师更好地理解、分析应用教材内容,并提高工作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值