pse文本行检测_cvpr2019 PSENet文本检测

最新推荐文章于 2022-10-05 16:22:18 发布

宫乘风

最新推荐文章于 2022-10-05 16:22:18 发布

阅读量192

点赞数

文章标签： pse文本行检测

本文链接：https://blog.csdn.net/weixin_34738099/article/details/113960279

版权

论文链接：Shape Robust Text Detection with Progressive Scale Expansion NetworkShape Robust Text Detection with Progressive Scale Expansion Networkarxiv.org

code： pytorch版本whai362/PSENetgithub.com

tensorflow版本liuheng92/tensorflow_PSENetgithub.com

文章主要思想：PSENet是一种基于语义分割的方法用于检测任意方向的文本，采用了渐进式尺度扩展的方法用来区分邻近的文本块。首先，能够对任意形状的文本进行定位；其次，提出了一种渐进的尺度扩展算法，该算法可以成功地识别相邻文本块。即本文算法可以精确地检测任意形状的文本，并且准确地将文本实例紧密地分开。

Motivation

传统的bounding box不能处理弯曲文字块(如图b)，而语义分割很难分离靠得很近的文字块(如图c)，本文提出先增大文字块之间的距离，然后通过渐进扩展算法来构建完整的文字块(如图d)。

Architecture

文章中采用的backbone网络是resnet，网络框架类似于FPN的形式，先采用CNN提取出四层不同level的feature map，分别为P2,P3,P4和P5，解决文本块尺度变换剧烈的问题，early-stage可用于预测小的文本块，late-stage可用于预测大的文本块，然后concat进行特征融合，上层进行上采样2倍后进行concat操作，最后得到特征图F。特征图F送入3*3大小的卷积中输出通道数为256的特征图，将此特征图再送入1*1大小的卷积层中输出n个最终的结果，这n个结果用

表示。最后通过渐进的尺度扩展算法PSE来进一步得到最终的文字检测结果。

这里的S1，S2，...，Sn，Si是图像分割的文字检测结果，不同之处在于每个结果对应的文字区域大小不一样，如S1是对应最小文字分割的结果，Sn是最大的文字分割结果(最好就是接近Groundtruth)。

PSE(Progressive Scale Expansion Algorithm)

首先看S1，图中有四个不同的分割区域为(c1,c2,c3,c4)，首先通过CC方法将不同分割区域合并起来得到图b，然后合并S2中的像素，最后结合S3进行EX尺度扩展得到最终的结果。

其中EX合并的规则采用的是BFS(Breadth-First-Search)，宽度优先搜索算法(又称广度优先搜索) 是最简便的图的搜索算法之一，这一算法也是很多重要的图的算法的原型。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想，属于一种盲目搜寻法，目的是系统地展开并检查图中的所有节点，以找寻结果。换句话说，它并不考虑结果的可能位置，彻底地搜索整张图，直到找到结果为止。

Label Generation

因为网络输出有n个分割结果，所以对于一张输入图片来说groundtruth也要有n个。这里groundtruth就是简单的将标定的文本框进行不同尺度的缩小。文章采用Vatti clipping算法将原多边形pn缩小di个像素得到pi，最终得到的n个groundtruth用

表示，文章中n设置为6，即得到6个不同尺度的Groundtruth文本框。

缩小的比例ri的计算公式为：

m表示最小的缩放比例，是一个超参数，取值范围为(0,1]，本文取m=0.5。n为最终输出多少个尺度的分割结果，文章设为6。对于n和m的取值，作者在文章最后附加实验中表明n=6和m=0.5的时候F measure的值是表现最好的，并以n=1和m=1作为baseline，即传统的语义分割方法来实现。

Loss Function

损失函数定义为：

Lc代表没有进行缩放时候的损失函数，即相对于原始大小的groundtruth的损失函数，Ls表示的是相对于缩放后的框的损失函数，

equation?tex=%5Clambda 用来平衡Lc和Ls的重要性。

计算方式采用的是dice loss，文章中使用了OHEM的方法，对于OHEM给出的训练mask为M的情况下，计算Lc和Ls的方式有改变。因为其他缩小框的分割结果会被原始大小的框包围，文章说为了避免冗余，在计算缩小框的损失函数时去除了Sn结果中为非文本的区域，所以Lc和Ls的计算方式分别如下：

其中：

Sn,x,y表示Sn中像素(x,y)的值。

这里单独谈谈自己的看法，文章的网络结构很主流，resnet+fpn的结构，主要在于后处理的PSE算法上，如何生成label，并根据生成的groundtruth来训练网络。

以上。

宫乘风

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pse文本行检测_cvpr2019 PSENet文本检测

论文链接：Shape Robust Text Detection with Progressive Scale Expansion NetworkShape Robust Text Detection with Progressive Scale Expansion Networkarxiv.orgcode： pytorch版本whai362/PSENetgithub.comtensorflo...
复制链接

扫一扫