Focus-Enhanced Scene Text Recognition with Deformable Convolutions//论文笔记

最新推荐文章于 2023-11-13 21:29:27 发布

农夫山泉2号

最新推荐文章于 2023-11-13 21:29:27 发布

阅读量497

点赞数

分类专栏： ocr 文章标签：文字识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011622208/article/details/101517062

版权

ocr 专栏收录该内容

44 篇文章 6 订阅

订阅专栏

文章目录

- 2.方法
- 3. 实验

论文： https://arxiv.org/pdf/1908.10998.pdf

摘要

2.方法

采用CRNN作为基线网络，并在其中插入deformable modules，插入的位置是在cnn的中间部分，作者说：浅层学到的是基本特征，深层特征图的尺寸太小（一般最后为H/4×W/32）学到的偏移可能不够精确，文字检测中一般将deformable 加到cnn的最后，但是文字检测图片的尺寸要大很多，加入了残差模块，和自适应的最大值池化
网络结构
在这里插入图片描述

3. 实验

训练数据为：

MJSynth Dataset
SynthText in the Wild Dataset
测试数据有：

totaltext
IC13
IC15
SVT
IIIT5K
图片resize到200×64,用CTC loss，SGD优化器，64的batchsize，lr=0.00005（好小）
结果：

DConv+resblock相较于单独的DConv和resblock并没有提高多少。

DConv放置位置的影响
在这里插入图片描述
放到较深的层，最多用两层。

农夫山泉2号

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Focus-Enhanced Scene Text Recognition with Deformable Convolutions//论文笔记

文章目录2.方法3. 实验论文：https://arxiv.org/pdf/1908.10998.pdf摘要2.方法采用CRNN作为基线网络，并在其中插入deformable modules，插入的位置是在cnn的中间部分，作者说：浅层学到的是基本特征，深层特征图的尺寸太小（一般最后为H/4×W/32）学到的偏移可能不够精确，文字检测中一般将deformable 加到cnn的最后，但是文字...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。