[论文笔记]Feature Enhancement Network: A Refined Scene Text Detector

最新推荐文章于 2023-03-23 11:52:49 发布

crediks

最新推荐文章于 2023-03-23 11:52:49 发布

阅读量1.2k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250416/article/details/78897027

版权

Feature Enhancement Network: A Refined Scene Text Detector

intro: AAAI 2018
arxiv: https://arxiv.org/abs/1711.04249

创新点：

1.现有问题：只利用３×３的滑动窗口特征和利用高维度的特征对目标检测窗口进行精修，对于小的场景文字来说是不够的。

创新点：提出Feature Enhancement Network,对高维度和低维度的语义特征进行融合。

2.现有问题：普通目标检测只有单一权重的position-sensitive RoI Pooling layer。

创新点：提出自适应权重（adaptively weighted）的 position-sensitive RoI pooling layer。

3.现有问题：如何解决在精修阶段的样本不平衡问题？

创新点：提出正样本挖掘策略（positives mining strategy)。

Feature Enhancement RPN:

1.单词的宽度大于高度，因此aspect ratio大于１。

2.高维的语义特征的感受野更大，拥有更多的上下文信息，便于区分前景目标和背景目标。

FE-RPN实现：

1.输入：Res30

2.连接两个分支，１）text-characteristic 和 task-specific的１×３卷积层；２）max pooling layer + 1×１convolution + deconvolution 层

3.将传统的3×３滑动窗口卷积特征与上述两层的输出进行连接。

4.最后，利用一个ResNet block进行特征增强。

Ｈyper Feature Generation

1)只利用高维度的语义特征会丢失细节信息，不利于小文本行的检测。

2)利用来自中间层的低维度的语义特征，可以较好的维持细节特征。

也就是，高维度的语义信息利于目标分类，而低维度的语义信息利于对目标进行精确定位。

思路借鉴：HyperNet

将来自不同中间层的特征压缩到bottleneck的卷积层的channel中

Text Proposals Generation

Text characteristic anchor design:

scales设计:32, 64, 112, 192, 304, 416

aspect ratios设计：1, 2, 3, 4, 6

很明显，有的anchor不太可能，例如scales为416，as为６，因为超出了图片边界。

因此，在FE-RPN的sub-network中的feature enhancement map中的每个点上，人工选择a=24个anchor。

Positive Mining:

１）在原有的origin proposals的基础上，对其进行扩展，生成两个额外的proposals，为原来的proposal的大小的0.7倍和1.3倍。

２）在排名前５０的origin positive proposals只选取前１５个，再对这１５个proposals进行扩展。

Text Detection Refinement

Adaptively Weighted Position-Sensitive RoI Pooling

在池化的时候，不是单一的７×７格子，而是设计了四种池化方式：３×３，７×７，３×８，３×１１，选取得分最高的池化方法。

量化评估：

１）FENS:　3% on recall rate，5% on F-measure

２）Positive Mining: 0.5% on F-measure

３）Adaptively weighted position-sensitive RoI Pooling: 1.9 on F-measure

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文笔记]Feature Enhancement Network: A Refined Scene Text Detector

Feature Enhancement Network: A Refined Scene Text Detectorintro: AAAI 2018arxiv: https://arxiv.org/abs/1711.04249创新点：1.现有问题：只利用３×３的滑动窗口特征和利用高维度的特征对目标检测窗口进行精修，对于小的场景文字来说是不够的。创新点：提出Feature
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。