字符识别OCR(optical character recognition)经典框架解析

金字塔oo

已于 2023-12-11 09:33:46 修改

阅读量5.6k

点赞数 1

分类专栏：目标识别文章标签： ocr 通用字符识别场景文字识别

于 2017-11-19 13:29:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014553172/article/details/78573965

版权

目标识别专栏收录该内容

8 篇文章 0 订阅

订阅专栏

字符识别通常包含2个阶段：
1.字符检测(detection)
2.字符识别(recognition)
一.检测
检测常用的框架包括：R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由于字符检测与通用的字符检测有一定的差别，字符有其特殊的特征:
1.文字目标的特殊性，一个很大的先验是，文字总是水平排列的。
2.文字的特征总感觉体现在edge上。
3.自然场景文字检测的难点在于：小目标，遮挡，仿射畸变。本文使用VGG16，只使用conv5，可能对小文字的检测效果不好。
因此，在字符检测是有一些专用的框架，如：CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)
本文工作基于faster RCNN , 区别在于
1.改进了rpn，anchor产生的window的宽度固定为3;
2.rpn后面不是直接接全连接+分类/回归，而是再通过一个LSTM，再接全连接层;
3.坐标仅仅回归一个y，而不是x1, y1, x2, y2;
4.添加 side-refinement offsets（可能这个就是4个回归值中的其中2个）;
二.识别
字符识别的常用框架是CNN+LSTM+CTC

（未完待续）

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
字符识别OCR(optical character recognition)经典框架解析

字符识别通常包含2个阶段： 1.字符检测(detection) 2.字符识别(recognition) 一.检测检测常用的框架包括：R-CNN ,fast R-CNN,faster R-CNN,YOLO,SDD等框架。但是由于字符检测与通用的字符检测有一定的差别，字符有其特殊的特征: 1.文字目标的特殊性，一个很大的先验是，文字总是水平排列的。 2.文字的特征总感觉体现在edge上。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。