IncepText 算法笔记

IncepText是一种用于多方向场景文本检测的Inception-Text模块,结合了ResNet50和deformable PSROI Pooling。论文提出保留较高分辨率特征图以检测小文本,并通过融合不同深度的特征来增强检测效果。Inception-Text模块使用不同尺寸卷积核分支,适应不同大小和宽高比的文字。deformable操作增强了对非水平文本的检测能力。实验表明,Inception-Text和deformable PSROI Pooling显著提高了文本检测性能。
摘要由CSDN通过智能技术生成

论文:IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection
论文链接:https://arxiv.org/abs/1805.01167

这篇是IJCAI2018关于自然场景文字检测的文章,基于分割算法(FCIS)并针对自然场景下文字的特点设计网络。因为自然场景下的文字大小、宽高比、方向变化多样,所以这篇文章借鉴inception结构的思想进行改进,在inception结构中通过不同尺寸的卷积核设计达到检测不同大小和宽高比的文字,同时引入deformable卷积层操作和deformable PSROI pooling层提升任意方向文字的检测效果。

Figure1是IncepText网络结构的示意图,主网络采用ResNet50。首先,去掉了Res stage5降采样操作,目的是增加该部分输出特征图的分辨率,这种操作在分割算法中比较常见。其次为了提高小文本区域的检测效果,IncepText将深层特征和浅层做了融合,具体而言是Res stage5、Res stage4的特征分别和Res stage3的特征做融合,因为Res stage5修改成不改变输入特征维度,所以只需要将二者unsample成原来维度的两倍就可以做特征融合了。作者用deformable PSROI pooling替换原来的标准PSROI pooling,因为标准的PSROI pooling在处理非水平方向的文本检测时效果不佳。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值