IncepText——自然场景中文本检测论文阅读

最新推荐文章于 2022-10-07 21:18:01 发布

农夫山泉2号

最新推荐文章于 2022-10-07 21:18:01 发布

阅读量403

点赞数

分类专栏： ocr 文章标签：文本检测 inceptext

本文链接：https://blog.csdn.net/u011622208/article/details/97110241

版权

ocr 专栏收录该内容

44 篇文章 6 订阅

订阅专栏

文章目录

摘要
介绍
相关工作
提出的方法
实验

摘要

介绍

文本检测的难点是有多种变化的场景：如街景，邮局，室内等，还有各种各样的前景文字和背景物体，各种光亮、模糊和方向。

文字检测算法的发展

传统特征方法：MSER(2010)，FASText(2015)
基于CNN 的方法
- CTPN（2016）RRPN（2017）都是基于Faster rcnn
- EAST，DDR，直接回归的方法
  本文主要采用FCIS（2016）的实例分割的思想，

创新点

设计了一个Inception-Text 来处理文本的多尺度
在每个分支的最后添加了一个deformable卷积层 来处理多方向问题
用deformable PSROI pooling替换了FCIS中的PSROI pooling，实验结果显示，其在分类效果上更好。

注意： 在ICDAR2015, RCTW-17 and MSRA-TD500数据集上都达到了state-of-the-art，而且没用额外的数据

相关工作

提出的方法

3.1 overview

在这里插入图片描述
以FCIS为基础用Inception-Text和deformable PSROI pooling做了拓展
以ResNet-50为特征提取主网络
为了检测小文本，需要考虑浅层的特征。于是resnet4和resnet5上采样2倍和resnet3相加融合，然后接inception-Text模块。
再用 deformable PSROI 替换PSROI pooling layer

测试时
利用masks和分类分数得到文本区域，然后做非极大值抑制。
针对每个未被抑制的box，通过iou>0.5找到其相似boxes，在做一起做一个融合，用分类的分数做权重。
最后用最小区域生成算法，得到文字区域 （opencv中好像有函数）

3.2 Inception-Text

在这里插入图片描述
主要在Inception模块上进行的修改

1×1 conv进行降维
n×n conv变成n×1和1×nconv
每个分支加上了deformable conv
向Inception-ResNet V2一样，使用了1×1的shortcut层

说明deformable卷积优势
在场景文本检测中，任意文本方向是最具挑战性的问题之一，可变形卷积允许采样网格自由变形，而不是标准卷积中的规则采样网格。这种变形受到输入特征的制约，因此当输入文本旋转时，接受域就会进行调整
在这里插入图片描述

3.3 deformable PSPOI Pooling

PSROI池(Dai et al.， 2016)是常规ROI池的一种变体，它在位置敏感的评分地图上运行，没有下面的加权层。位置敏感属性为分类和对象位置编码有用的空间信息。
在这里插入图片描述
没细看

3.4 标签和损失函数

在这里插入图片描述
四边形中的都是正样本，外的就是负样本
回归任务的目标是虚线的矩形，分割任务的目标是灰色的掩码。
哦，懂了，应该是采用的Faster rcnn two stage的方案，RPN部分分类和回归定位到虚线的矩形框，RCNN部分再是灰色的掩码和虚线的矩形框部分。瞎猜的

五个部分的loss
在这里插入图片描述

实验

在这里插入图片描述
比EAST高了很多，值得复现。

农夫山泉2号

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
IncepText——自然场景中文本检测论文阅读

文章目录摘要介绍相关工作提出的方法3.1 overview3.2 Inception-Text3.3 deformable PSPOI Pooling3.4 标签和损失函数实验摘要介绍文本检测的难点是有多种变化的场景：如街景，邮局，室内等，还有各种各样的前景文字和背景物体，各种光亮、模糊和方向。文字检测算法的发展传统特征方法：MSER(2010)，FASText(2015)基...
复制链接

扫一扫

专栏目录