原标题:EAST+CRNN银行卡号识别,附数据集
实现功能与方法
卡号定位 (EAST)
交互界面 (PyQt5)使用方法
下载源码
下载训练好的模型
使用PyCharm打开(或其他IDE),或者直接执行 python demo.py
出现GUI后即可使用
注*:因CRNN模型代码更新,此模型故已弃用。可在下文下载其预训练网络。
数据集,模型,代码 以及运行教程 获取:
银行卡即可获取。
功能介绍 卡号识别
模型的 训练方法如下:
下载预训练模型.并将其路径写入 crnn/cfg.py 的 PRE_TRAINED_MODEL_PATH 变量中
python crnn/preprocess.py
python crnn/run.py
注:模型训练的数据集是由子数据集(4-6个)拼凑而成的不定长度的数据, crnn/cfg.py 中的 MAX_LABEL_LENGTH 用来设置数据的最大长度。这部分数据是通过运行 crnn/preprocess.py 生成,可以通过 AUG_NBR 设置生成数据集个数。其效果如下:
卡号定位
这一部分是重中之重,考虑到自己还没有能力去研究新的图像字符定位算法,就参考了许多这类算法。现在比较成功的莫过于CTPN了,其次也有Faster-RCNN,EAST,Seg-Link等等。而偏偏选用EAST的原因可能是一见钟情吧(名字好听)。
此部分引用的是EAST的Keras实现,但此EAST并非原生的EAST,而是改进的AdvancedEAST
这个模型特点之一就是方便训练,直观也简练。训练方法及更多原理参见原文部分。
特别值得提起的是数据集,是我自己从互联网上搜罗来的,然后还进行了标注。过程比较痛苦。面临的问题是,几百张数据可能训练不出好的模型,所以后期使用自动定位不成功的,可能原因之一就是数据集太小(我…尽力了…)。但是用于这样的小系统开发,还是有一定的使用价值。
如果你有更多的数据的话,若想进行标注。懂的同学可以标注直接标注为 ICDAR 2015的格式,不懂的同学则可以使用 dataset/tagger.py 简陋的标注器来标注,标注方法:以目标区域 左上角开始, 顺时针的点击物体的角点,直到最后一个点,可在数据同目录的 txt 下看到形如 x1,y1,x2,y2,x3,y3,x4,y4,### 的值 ### 表示忽略目标内容。如果成功标注完成,在 east 目录下运行 python east/preprocess.py 得到形如以下形式的图像,就代表成功了。
模型的 训练方法如下:
python east/preprocess.py (可选,若数据集有变更则运行)
python east/run.py
注:部分参数可以在 east/cfg.py 中设置,推荐使用默认。
交互界面
使用了Qt对Python的接口PyQt5来完成,UI设计使用QtDesigner来完成。整体效果如下:(且不说美,起码能看,中规中矩吧)
但是也想之前所述,因为训练数据的贫乏,导致部分测试数据无法定位。后期可通过增大训练数据集解决。目前自动定位失败主要集中在卡号和卡片背景颜色相近的情况,例如都偏暗,或者都偏亮。可以在定位之前,给测试数据加上若干预处理操作,如提高亮度,增加对比度等。
责任编辑: