字符识别OCR(optical character recognition)经典框架解析

字符识别通常包含2个阶段:
1.字符检测(detection)
2.字符识别(recognition)
一.检测
检测常用的框架包括:R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由于字符检测与通用的字符检测有一定的差别,字符有其特殊的特征:
1.文字目标的特殊性,一个很大的先验是,文字总是水平排列的。
2.文字的特征总感觉体现在edge上。
3.自然场景文字检测的难点在于:小目标,遮挡,仿射畸变。本文使用VGG16,只使用conv5,可能对小文字的检测效果不好。
因此,在字符检测是有一些专用的框架,如:CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
本文工作基于faster RCNN , 区别在于
1.改进了rpn,anchor产生的window的宽度固定为3;
2.rpn后面不是直接接全连接+分类/回归,而是再通过一个LSTM,再接全连接层;
3.坐标仅仅回归一个y,而不是x1, y1, x2, y2;
4.添加 side-refinement offsets(可能这个就是4个回归值中的其中2个);
二.识别
字符识别的常用框架是CNN+LSTM+CTC

(未完待续)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值