pse文本行检测_cvpr2019 PSENet文本检测

论文链接:Shape Robust Text Detection with Progressive Scale Expansion NetworkShape Robust Text Detection with Progressive Scale Expansion Network​arxiv.org

code: pytorch版本whai362/PSENet​github.com

tensorflow版本liuheng92/tensorflow_PSENet​github.comfa97984d78acfc6302f656bd141fb463.png

文章主要思想:PSENet是一种基于语义分割的方法用于检测任意方向的文本,采用了渐进式尺度扩展的方法用来区分邻近的文本块。首先,能够对任意形状的文本进行定位;其次,提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本块。即本文算法可以精确地检测任意形状的文本,并且准确地将文本实例紧密地分开。

Motivation

传统的bounding box不能处理弯曲文字块(如图b),而语义分割很难分离靠得很近的文字块(如图c),本文提出先增大文字块之间的距离,然后通过渐进扩展算法来构建完整的文字块(如图d)。

Architecture

文章中采用的backbone网络是resnet,网络框架类似于FPN的形式,先采用CNN提取出四层不同level的feature map,分别为P2,P3,P4和P5,解决文本块尺度变换剧烈的问题,early-stage可用于预测小的文本块,late-stage可用于预测大的文本块,然后concat进行特征融合,上层进行上采样2倍后进行concat操作,最后得到特征图F。特征图F送入3*3大小的卷积中输出通道数为256的特征图,将此特征图再送入1*1大小的卷积层中输出n个最终的结果,这n个结果用

表示。最后通过渐进的尺度扩展算法PSE来进一步得到最终的文字检测结果。

这里的S1,S2,...,Sn,Si是图像分割的文字检测结果,不同之处在于每个结果对应的文字区域大小不一样,如S1是对应最小文字分割的结果,Sn是最大的文字分割结果(最好就是接近Groundtruth)。

PSE(Progressive Scale Expansion Algorithm)

首先看S1,图中有四个不同的分割区域为(c1,c2,c3,c4),首先通过CC方法将不同分割区域合并起来得到图b,然后合并S2中的像素,最后结合S3进行EX尺度扩展得到最终的结果。

其中EX合并的规则采用的是BFS(Breadth-First-Search),宽度优先搜索算法(又称广度优先搜索) 是最简便的图的搜索算法之一,这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想,属于一种盲目搜寻法,目的是系统地展开并检查图中的所有节点,以找寻结果。换句话说,它并不考虑结果的可能位置,彻底地搜索整张图,直到找到结果为止。

Label Generation

因为网络输出有n个分割结果,所以对于一张输入图片来说groundtruth也要有n个。这里groundtruth就是简单的将标定的文本框进行不同尺度的缩小。文章采用Vatti clipping算法将原多边形pn缩小di个像素得到pi,最终得到的n个groundtruth用

表示,文章中n设置为6,即得到6个不同尺度的Groundtruth文本框。

缩小的比例ri的计算公式为:

m表示最小的缩放比例,是一个超参数,取值范围为(0,1],本文取m=0.5。n为最终输出多少个尺度的分割结果,文章设为6。对于n和m的取值,作者在文章最后附加实验中表明n=6和m=0.5的时候F measure的值是表现最好的,并以n=1和m=1作为baseline,即传统的语义分割方法来实现。

Loss Function

损失函数定义为:

Lc代表没有进行缩放时候的损失函数,即相对于原始大小的groundtruth的损失函数,Ls表示的是相对于缩放后的框的损失函数,

equation?tex=%5Clambda 用来平衡Lc和Ls的重要性。

计算方式采用的是dice loss,文章中使用了OHEM的方法,对于OHEM给出的训练mask为M的情况下,计算Lc和Ls的方式有改变。因为其他缩小框的分割结果会被原始大小的框包围,文章说为了避免冗余,在计算缩小框的损失函数时去除了Sn结果中为非文本的区域,所以Lc和Ls的计算方式分别如下:

其中:

Sn,x,y表示Sn中像素(x,y)的值。

这里单独谈谈自己的看法,文章的网络结构很主流,resnet+fpn的结构,主要在于后处理的PSE算法上,如何生成label,并根据生成的groundtruth来训练网络。

以上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值