核酸扫码登记体验有感（如何提高OCR的文字正确识别率）

最新推荐文章于 2024-04-13 13:39:23 发布

hanxiaolaa

最新推荐文章于 2024-04-13 13:39:23 发布

阅读量1.6k

点赞数

分类专栏：数据挖掘数据质量文章标签：知识图谱大数据中文分词

本文链接：https://blog.csdn.net/hanxiaolaa/article/details/126028838

版权

近几年，新冠疫情持续反复，核酸检测已成为了我们日常生活的一部分，甚至有人开玩笑说朋友邻居见面问候语从“吃了吗你？”变成了“今儿核酸了？”。核酸检测全员常态化，需要大量的志愿者协助医生进行身份证扫描工作，而我有幸成为了个人所在社区的一名志愿者。身份证扫描工作机械而简单，不过由于职业本能反应，让我的核酸扫码登记志愿者的感受也不同起来。

与其他核酸扫码登记志愿者一样，首先是领取防疫物资，穿戴防护服，接受扫码岗位工作内容培训，前往应点位上岗。现场工作主要是对参加检测的居民进行身份证扫描或身份信息录入，需要注意的是扫描时需要核对信息：身份证信息于扫灭结果是否一致，一致则放行，不一致则手动纠错。在扫描过程中，尽管系统识别在大多数情况下都是准确的，但也有例外。在两个多小时的时间内，我发现基本上每10个人中就有1位居民的身份信息自动识别有误差，其中有的是将身份证号里的8识别为0；有的是居民姓名中的生僻字无法扫描或被认错，如“尒”；还有的是姓名里的字被识别为字形相近的字，如“国”识别成“匡”，“妍”识别成“奸”；再有的是姓名里的单字被识别为多字，如“勍”识别成“京力”等。这些识别错误不仅让现场的手动录入工作增多，增加了核酸检测排队时间，也导致了部分信息核实不到位，导致个别居民核酸检测后查不到结果。而产生这些错误的原因主要与信息登记系统采用的OCR文字识别技术有关。

身份扫描使用到的OCR识别技术是什么？

OCR（optical character recognition）文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。而衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

因此核酸身份扫面工作就是将身份证上的(图片)信息翻译为计算机(文字)信息并存储供后续使用。那么在这个过程中，OCR的识别工作需要做一些什么操作，如何提高识别速度，降低拒识率和误识率呢？