场景文字识别

最新推荐文章于 2024-04-15 09:53:43 发布

qq_36573282

最新推荐文章于 2024-04-15 09:53:43 发布

阅读量779

点赞数 1

文章标签：图像识别计算机视觉

本文链接：https://blog.csdn.net/qq_36573282/article/details/103836824

版权

文章目录

1. 简介
2. 初始bounding box生成
- 2.1 Edge Box候选区域生成
- 2.2 Aggregate Channel Feature Detector
3. Bounding Box 筛选
4. 文字识别
5. Bounding Box的合并与排序
6. 图像检索
7. 总结

1. 简介

针对格式、字体较为标准的文字识别可以做到比较高的准确率。而在复杂场景中定位并识别出文字仍然有待提高的空间。
下面介绍的论文是2016年发表在IJCV上的论文Reading Text in theWild with Convolutional Neural Networks。
该论文中使用的数据集为 $32 * 100 * 1$ 的图像，通过对原始图像做shadow、composition、projection等扩充数据集。整个系统设计为一个端到端(end-to-end)的系统。具体的流程为：① 从原始图像中提取出初始的bounding box，该步骤要尽量有较高的召回率，以便后续步骤refine能够得到较高的准确率；② 对初始的candidate bounding box筛选，该部分使用一个二分类的random forest 分类器，该分类器判断一个bounding box中是否包含字符。此外，可以使用Non-maximal Supression 去除冗余的bounding box；③ 使用CNN 对筛选后的bounding box回归，得到一个较好地边界值；④ 使用CNN（与前一个步骤的CNN不同）对bounding box中的字符识别；⑤ 最后，对结果进行一些后处理，例如merg等。

2. 初始bounding box生成

由于高准确率与高召回率之间存在一个trade off，并且后续步骤会对初始的bounding box 进一步的refine。因此初始生成的 bounding box 要取得尽量高的召回率。该部分衡量bounding box准确率的指标采用IoU，即一个bounding box $\widetilde{b}$ 与ground truth bounding box $b^*$ ，IoU( $\widetilde{b},b^*$ )= $\frac{\widetilde{b}\cap b^*}{\widetilde{b} \cup b^*}$ 。论文中，该部分采取结合Edge Boxs候选区域算法以及weak aggregate channel features detector的方式。

2.1 Edge Box候选区域生成

Edge Box候选区域生成算法基于的想法是，每个object都是自包含(self contained)的。因此，通过object的边可以得到其大致的范围，如果object的某个边没有完全包含在bounding box里面（cross the border of bounding box），则说明这个bounding box没有完全包住该object。该论文中，对每个bounding box都计算一个score $s_{b}$ ，该score的计算是根据object完全包含在bounding box $b$ 中的edge个数计算得出的，即 $s_{b}=\frac{edge_{in}}{edge_{total}}$

最低0.47元/天解锁文章

qq_36573282

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
场景文字识别

文章目录1. 简介2. 初始bounding box生成2.1 Edge Box候选区域生成1. 简介针对格式、字体较为标准的文字识别可以做到比较高的准确率。而在复杂场景中定位并识别出文字仍然有待提高的空间。下面介绍的论文是2016发表在IJCV上的论文Reading Text in theWild with Convolutional Neural Networks。该论文中使用的数据集...
复制链接

扫一扫