Focus-Enhanced Scene Text Recognition with Deformable Convolutions//论文笔记

文章目录


论文: https://arxiv.org/pdf/1908.10998.pdf

摘要

2.方法

采用CRNN作为基线网络,并在其中插入deformable modules,插入的位置是在cnn的中间部分,作者说:浅层学到的是基本特征,深层特征图的尺寸太小(一般最后为H/4×W/32)学到的偏移可能不够精确,文字检测中一般将deformable 加到cnn的最后,但是文字检测图片的尺寸要大很多,加入了残差模块,和自适应的最大值池化
网络结构
在这里插入图片描述


3. 实验

训练数据为:

  1. MJSynth Dataset
  2. SynthText in the Wild Dataset
    测试数据有:
  • totaltext
  • IC13
  • IC15
  • SVT
  • IIIT5K
    图片resize到200×64,用CTC loss,SGD优化器,64的batchsize,lr=0.00005(好小
    结果:
    在这里插入图片描述
    DConv+resblock相较于单独的DConv和resblock并没有提高多少。

DConv放置位置的影响
在这里插入图片描述
放到较深的层,最多用两层。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值