近几年,新冠疫情持续反复,核酸检测已成为了我们日常生活的一部分,甚至有人开玩笑说朋友邻居见面问候语从“吃了吗你?”变成了“今儿核酸了?”。核酸检测全员常态化,需要大量的志愿者协助医生进行身份证扫描工作,而我有幸成为了个人所在社区的一名志愿者。身份证扫描工作机械而简单,不过由于职业本能反应,让我的核酸扫码登记志愿者的感受也不同起来。
与其他核酸扫码登记志愿者一样,首先是领取防疫物资,穿戴防护服,接受扫码岗位工作内容培训,前往应点位上岗。现场工作主要是对参加检测的居民进行身份证扫描或身份信息录入,需要注意的是扫描时需要核对信息:身份证信息于扫灭结果是否一致,一致则放行,不一致则手动纠错。在扫描过程中,尽管系统识别在大多数情况下都是准确的,但也有例外。在两个多小时的时间内,我发现基本上每10个人中就有1位居民的身份信息自动识别有误差,其中有的是将身份证号里的8识别为0;有的是居民姓名中的生僻字无法扫描或被认错,如“尒”;还有的是姓名里的字被识别为字形相近的字,如“国”识别成“匡”,“妍”识别成“奸”;再有的是姓名里的单字被识别为多字,如“勍”识别成“京力”等。这些识别错误不仅让现场的手动录入工作增多,增加了核酸检测排队时间,也导致了部分信息核实不到位,导致个别居民核酸检测后查不到结果。而产生这些错误的原因主要与信息登记系统采用的OCR文字识别技术有关。
身份扫描使用到的OCR识别技术是什么?
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。而衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
因此核酸身份扫面工作就是将身份证上的(图片)信息翻译为计算机(文字)信息并存储供后续使用。那么在这个过程中,OCR的识别工作需要做一些什么操作,如何提高识别速度,降低拒识率和误识率呢?