Lesson 6.1 身份证识别: 提取字段

Lesson 6.1 身份证识别: 提取字段

小编最近试试识别身份证上面的文字。

第一步还是图像分割,第一步还是提取文本行,然后提取字段。

01_origin_img

看上去,第一个感觉就是所有文字都是黑色的。可以简单过滤一下图片的RGB通道,剩下黑色部分,如下是结果:

02_mask

基本上所有背景都被去掉了,但是还有头像会阻碍检测文本行,所以把头像部分也去掉了。

04_left_mask

这样往左投影求和就可以找到文本行。然后在图片上,画上文本行即可。

03_mask_text_lines

然后每一行进行垂直投影,就可以找到所有字段的位置,当然还有一些噪音。

06_origin_img_chars

然后我们可以定义

第一行,第一个字段是名字
第二行,第一个字段是性别
第二行,第二个字段是民族

等等,如此类推。。。下面是以不同的颜色代表不同的字段的调试图片

07_origin_img_key_to_segments

如何通过Docker安装虫数据的代码可以见 github

运行一下命令可以获取结果:

所有身份证的图像分割图片保存在这里 “/workspace/debug”,具体要看用户映射到本机电脑的哪个地方。

下一篇文章将会整合这个分割算法,对身份证上面的字段识别。

编憋了两周,终于憋出了一个简单的身份证识别系统。

基于图像识别,暂时没有加语义上面的纠正。

上一篇文章介绍了如何分割字段,这篇文章主要显示识别结果。

07_origin_img_key_to_segments

对每个字段的识别方法类似于Lesson 1: 如何做文本行和文字分割分割每个字符。

如何安装请见github项目的首页 通过 Docker 安装

识别结果为

暂时不是很稳定,需要加一些语义模型。等等小编吧。。。。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值