【论文阅读】泛读《SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder》

最新推荐文章于 2020-12-04 18:38:58 发布

hyfine_

最新推荐文章于 2020-12-04 18:38:58 发布

阅读量2k

点赞数 2

分类专栏：论文研读

本文链接：https://blog.csdn.net/f290131665/article/details/82799651

版权

论文研读专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder Network

SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder Network

本文是一个端到端的场景文本识别方案，但其实还是stage-wise的方案。整个framework分为两个stage。

B-CEDNet，binary convolutional encoder-decoder network，二进制的卷积编解码网络，这个网络是用来做文字区域的detection的，不同其他方案的地方就是，它采用的是二进制网络，好处就是模型参数经过高度压缩，减小了存储和加快了inference过程。
Bi-RNN，bidirectional recurrent neural network，双向循环网络。这个网络是用作文字序列的识别的。

经过百万合成图片的训练，B-CEDNet在ICDAR-03和ICDAR-13上recall=0.86，precision=0.88，F-score=0.87.整个推断过程小于1ms。网络模型B-CEDNet只有1.01MB，Bi-RNN只有3.23MB，是现有方法中最小最快的。

ps：从abstract上来看，这个工作整体上并没有太多新的东西。binary的网络是之前NIPS 2016提出来的一种模型压缩方案，所以最终结果中模型才能达到那么小。而获得的“跑分”成绩，可以从3个方面考虑，1）是训练数据量大。2）是通常模型的压缩是具有一定正则化作用的，能提高网络泛化能力，往往会比原网络效果更好。3）测试数据集感觉还是比较小。

Introduction

本文贡献

实时的场景文本检测要求内存高效和快速处理，本文提出一个新的binary的encoder-decoder nn 模型。由于二进制压缩，可以高速实时inference，且memory consuption很小。
本文发现文本特征可以被编码成二进制格式，且无损语义推断信息。
进一步设计了双向RNN（Ri-RNN）进行快速的文字校正与分类。

Related Work

通常场景文本识别有两类方法

character-level，字符级解决方案，依赖于多尺度的滑动窗口去定位和识别字符。
word-level，词句级的解决方案，将文本识别看作图像分类问题。

Approach

在这里插入图片描述

Experiments

在这里插入图片描述

hyfine_

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】泛读《SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder》

文章目录SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder NetworkIntroductionRelated WorkApproachExperimentsSqueezedText: A Real-Time Scene Text Recognition by Bina...
复制链接

扫一扫