Tesseract-OCR训练实现对模糊身份证号码的识别

最新推荐文章于 2024-07-29 13:16:05 发布

擦肩回眸2011

最新推荐文章于 2024-07-29 13:16:05 发布

阅读量6.4k

点赞数 2

分类专栏： Tesseract-OCR 文章标签： Tesseract-OCR 字符训练身份证号识别

本文链接：https://blog.csdn.net/u010782875/article/details/78304948

版权

Tesseract-OCR 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

根据公司项目需求，需要通过扫描实现身份证号码的提取，使用官方提供的识别库，在正常情况下都能够正确提取出身份证号码，但是在身份证拍摄模糊的情况下，识别效果并不理想。根据需求，我接触了解到Tesseract，它是一个开源的OCR（Optical Character Recognition,光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本。接着通过进一步学习，训练了一些模糊的身份证号码样本，提高了对模糊身份证号的识别准确度。

下面，我们将在Windows环境下安装Tesseract实现对身份证号的识别及训练工作。

1、Tesseract使用官方库识别身份证号

1.1 安装Tesseract-OCR

通过下载地址：http://code.google.com/p/tesseract-ocr/，下载安装tesseract-ocr-setup-3.02.02.exe。安装成功后会生成如下目录：

1.2 使用官方库识别

准备一张待识别的身份证号图片test.jpg

打开cmd.exe，进入到test.jpg文件目录，执行：tesseract test.jpg output_test -l eng

【语法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]

imagename为目标图片文件名，需加格式后缀；outputbase是转换结果文件名；lang是语言名称（在Tesseract-OCR中 tessdata文件夹可看到以eng开头的语言文件eng.traineddata），如不标-l eng则默认为eng。

在当前目录下会生成output_test.txt文件

对比发现，通过官方库识别的结果并不理想，因此训练自己的库来完成识别。

2、Tesseract训练自己的身份证号识别库

2.1 安装jTessBoxEditor

下载jTessBoxEditor,地址为：https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/，解压后放到Tesseract-OCR目录下。这里需要事先安装了JRE。

2.2 制作训练样本文件

这里制作了十张模糊化后的身份证号图片，图片格式为tif/tiff格式

2.3 合并样本文件

打开jTessBoxEditor,Tools->Merge TIFF，将上述样本全部选上，合并保存为num.font.exp0.tif。这里通过这种方式合并可能会出现Couldn't Seek错误，可以通过下载TIF/TIFF合并工具进行合并。下载地址：http://download.csdn.net/download/u010782875/10033600

合并后的文件如下：