Extremal Region(极值区域)文本定位与识别法－学习笔记（一）

最新推荐文章于 2022-10-14 16:58:05 发布

今哉

最新推荐文章于 2022-10-14 16:58:05 发布

阅读量1.1w

点赞数 2

分类专栏：计算机视觉文章标签：计算机视觉 OCR ER

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hiterdu/article/details/43603243

版权

本文介绍了基于极值区域(ER)的文本定位与识别方法，适用于复杂场景，对模糊、光照变化具有高稳健性。通过序列选择和高效特征估计，实现端对端的文本检测，且在ICDAR 2011及StreetView Text数据集上表现出色。方法包括ER检测、分类阶段和OCR识别，其中新引入的梯度级投影有助于减少ERs并提高字符检测率。

摘要由CSDN通过智能技术生成

最近做一个计算机视觉的项目，要将其中复杂场景中的文本识别率从92%进一步提升，挑战很大也很有意思。边阅读一些最新的文本定位与识别的论文，边在这里记下阅读笔记与翻译内容，慢慢研究。本人英语与专业水平有限，仅供学习参考，欢迎交流，请多指教。

Reference:Real-TimeScene Text Localization and Recognition Luk´aˇsNeumann Jiˇr´ı Matas 2012 IEEE

一：引言

现实场景的文本定位与识别是很多计算机视觉应用的关键部分。比如通过文本内容来搜索图片、在地图应用（如谷歌街景）中读取商标，或者辅助视觉障碍人员。

在图像中进行文本定位，是一项潜在计算代价非常高的任务，通常一个有N个像素的图像，2^N（每个像素都有2种可能：选取做为像素子集中的像素或不选取，所以有2^N个像素子集）个像素子集中任何一个都可能是符合的文字图像。文本定位处理这一难点时，采用了两种不同的方法:

(1) 用滑动窗口来将这种搜索限制在图像矩形的子集中，这将检测文字出现的子集数减少到cN（c是常数值，单尺度、单旋转方法时，c小于1；多尺度、多旋转、多倾斜等方法处理时c大于1）。

(2) 假定属于同一字符的像素有相似性质，则可以用连通域分析的方法，把像素分组成不同区域，以此来找到单独的字符。连通域分析根据用到的属性（颜色、笔划宽度等）而不同。

优点：其复杂性不依赖于文本的属性（尺度范围，方向，字体），而且它提供了可供OCR步骤中利用的分割。

最低0.47元/天解锁文章

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。