IncepText——自然场景中文本检测论文阅读

摘要

介绍

文本检测的难点是有多种变化的场景:如街景,邮局,室内等,还有各种各样的前景文字和背景物体,各种光亮、模糊和方向。

文字检测算法的发展

  • 传统特征方法:MSER(2010),FASText(2015)
  • 基于CNN 的方法
    • CTPN(2016)RRPN(2017)都是基于Faster rcnn
    • EAST,DDR,直接回归的方法
      本文主要采用FCIS(2016)的实例分割的思想,

创新点

  • 设计了一个Inception-Text 来处理文本的多尺度
  • 在每个分支的最后添加了一个deformable卷积层 来处理多方向问题
  • 用deformable PSROI pooling替换了FCIS中的PSROI pooling,实验结果显示,其在分类效果上更好。

注意: 在ICDAR2015, RCTW-17 and MSRA-TD500数据集上都达到了state-of-the-art,而且没用额外的数据

相关工作

提出的方法

3.1 overview

在这里插入图片描述
以FCIS为基础用Inception-Text和deformable PSROI pooling做了拓展
以ResNet-50为特征提取主网络
为了检测小文本,需要考虑浅层的特征。于是resnet4和resnet5上采样2倍和resnet3相加融合,然后接inception-Text模块。
再用 deformable PSROI 替换PSROI pooling layer

测试时
利用masks和分类分数得到文本区域,然后做非极大值抑制。
针对每个未被抑制的box,通过iou>0.5找到其相似boxes,在做一起做一个融合,用分类的分数做权重。
最后用最小区域生成算法,得到文字区域 (opencv中好像有函数)


3.2 Inception-Text

在这里插入图片描述
主要在Inception模块上进行的修改

  • 1×1 conv进行降维
  • n×n conv变成n×1和1×nconv
  • 每个分支加上了deformable conv
  • 向Inception-ResNet V2一样,使用了1×1的shortcut层

说明deformable卷积优势
在场景文本检测中,任意文本方向是最具挑战性的问题之一,可变形卷积允许采样网格自由变形,而不是标准卷积中的规则采样网格。这种变形受到输入特征的制约,因此当输入文本旋转时,接受域就会进行调整
在这里插入图片描述


3.3 deformable PSPOI Pooling

PSROI池(Dai et al., 2016)是常规ROI池的一种变体,它在位置敏感的评分地图上运行,没有下面的加权层。位置敏感属性为分类和对象位置编码有用的空间信息。
在这里插入图片描述
没细看


3.4 标签和损失函数

在这里插入图片描述
四边形中的都是正样本,外的就是负样本
回归任务的目标是虚线的矩形,分割任务的目标是灰色的掩码。
哦,懂了,应该是采用的Faster rcnn two stage的方案,RPN部分分类和回归定位到虚线的矩形框,RCNN部分再是灰色的掩码和虚线的矩形框部分。瞎猜的

五个部分的loss
在这里插入图片描述


实验

在这里插入图片描述
比EAST高了很多,值得复现。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值