Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework

                              Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework

 

结果:state-of-the-art accuracy in the end-to-end text recognition on two standard datasets – ICDAR 2013 and ICDAR 2015,并且速度快了10倍,达到10 fps.

目前存在的问题:之前普遍是把检测模型和单独的识别模型连接在一起。

本模型:检测和识别在单一学习框架训练。本文展示了可以通过先进的目标检测算法经过拓展之后用于文本检测和识别。

很多文本检测方法是基于一般的目标检测方法然后拓展而来的。

we use YOLOv2 architecture [22] for its lower complexity, we use the bilinear sampling to produce tensors of variable width to deal with character sequence recognition and we employ a different (and significantly faster) classification stage.

使用YOLOv2的原因:YOLOv2更精确,并且比标准的VGG-16 architecture的复杂度低很多。场景图像中的文本可能很小,所以分辨率要高才行,否则很多小的不可读。

本文移除了YOLOv2的全连接层。模型最终的大小是W/32× H/32×1024。

与Faster R-CNN [23] 和 YOLOv2 [22]一样使用了 Region Proposal Network (RPN)来生成区域建议,但是添加了rθ,在最后一

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值