【论文阅读】泛读《SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder》

SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder Network

本文是一个端到端的场景文本识别方案,但其实还是stage-wise的方案。整个framework分为两个stage。

  • B-CEDNet,binary convolutional encoder-decoder network,二进制的卷积编解码网络,这个网络是用来做文字区域的detection的,不同其他方案的地方就是,它采用的是二进制网络,好处就是模型参数经过高度压缩,减小了存储和加快了inference过程。
  • Bi-RNN,bidirectional recurrent neural network,双向循环网络。这个网络是用作文字序列的识别的。

经过百万合成图片的训练,B-CEDNet在ICDAR-03和ICDAR-13上recall=0.86,precision=0.88,F-score=0.87.整个推断过程小于1ms。网络模型B-CEDNet只有1.01MB,Bi-RNN只有3.23MB,是现有方法中最小最快的。

ps:从abstract上来看,这个工作整体上并没有太多新的东西。binary的网络是之前NIPS 2016提出来的一种模型压缩方案,所以最终结果中模型才能达到那么小。而获得的“跑分”成绩,可以从3个方面考虑,1)是训练数据量大。2)是通常模型的压缩是具有一定正则化作用的,能提高网络泛化能力,往往会比原网络效果更好。3)测试数据集感觉还是比较小。


Introduction

本文贡献

  • 实时的场景文本检测要求内存高效和快速处理,本文提出一个新的binary的encoder-decoder nn 模型。由于二进制压缩,可以高速实时inference,且memory consuption很小。
  • 本文发现文本特征可以被编码成二进制格式,且无损语义推断信息。
  • 进一步设计了双向RNN(Ri-RNN)进行快速的文字校正与分类。

Related Work

通常场景文本识别有两类方法

  • character-level,字符级解决方案,依赖于多尺度的滑动窗口去定位和识别字符。
  • word-level,词句级的解决方案,将文本识别看作图像分类问题。

Approach

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Experiments

在这里插入图片描述

在这里插入图片描述

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值