场景文字识别

1. 简介

针对格式、字体较为标准的文字识别可以做到比较高的准确率。而在复杂场景中定位并识别出文字仍然有待提高的空间。
下面介绍的论文是2016年发表在IJCV上的论文Reading Text in theWild with Convolutional Neural Networks
该论文中使用的数据集为 32 ∗ 100 ∗ 1 32*100*1 321001的图像,通过对原始图像做shadow、composition、projection等扩充数据集。整个系统设计为一个端到端(end-to-end)的系统。具体的流程为:① 从原始图像中提取出初始的bounding box,该步骤要尽量有较高的召回率,以便后续步骤refine能够得到较高的准确率;② 对初始的candidate bounding box筛选,该部分使用一个二分类的random forest 分类器,该分类器判断一个bounding box中是否包含字符。此外,可以使用Non-maximal Supression 去除冗余的bounding box;③ 使用CNN 对筛选后的bounding box回归,得到一个较好地边界值;④ 使用CNN(与前一个步骤的CNN不同)对bounding box中的字符识别;⑤ 最后,对结果进行一些后处理,例如merg等。

2. 初始bounding box生成

由于高准确率与高召回率之间存在一个trade off,并且后续步骤会对初始的bounding box 进一步的refine。因此初始生成的 bounding box 要取得尽量高的召回率。该部分衡量bounding box准确率的指标采用IoU,即一个bounding box b ~ \widetilde{b} b 与ground truth bounding box b ∗ b^* b,IoU( b ~ , b ∗ \widetilde{b},b^* b ,b)= b ~ ∩ b ∗ b ~ ∪ b ∗ \frac{\widetilde{b}\cap b^*}{\widetilde{b} \cup b^*} b bb b。论文中,该部分采取结合Edge Boxs候选区域算法以及weak aggregate channel features detector的方式。

2.1 Edge Box候选区域生成

Edge Box候选区域生成算法基于的想法是,每个object都是自包含(self contained)的。因此,通过object的边可以得到其大致的范围,如果object的某个边没有完全包含在bounding box里面(cross the border of bounding box),则说明这个bounding box没有完全包住该object。该论文中,对每个bounding box都计算一个score s b s_{b} sb,该score的计算是根据object完全包含在bounding box b b b中的edge个数计算得出的,即 s b = e d g e i n e d g e t o t a l s_{b}=\frac{edge_{in}}{edge_{total}} sb=

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值