文本检测新进展：PSENet解决实例融合问题-CSDN博客

本文链接：https://blog.csdn.net/qq_44173974/article/details/124619328

论文正文

链接：链接，提取码：7tjv

概述

背景：文本检测当中，主流的两类方法是基于回归的方法和基于分割的方法。前者对于任意形状文本的检测效果较差，后者较好，但是后者容易将接近的文本实例检测为一个文本实例，本文就是为了解决这个问题。
下图中：a是原图，b是使用基于回归的方法得到的结果，效果很差，c是基于分割的方法得到的结果，d是使用PSENet得到的结果。
在这里插入图片描述

细节

整体流程

首先骨干网络是ResNet，接着经过FPN特征金字塔做特征融合得到F，F经过处理得到N个分割图 $S_1,S_2,...,S_n)$ ，其中 $S_1$ 具有最小尺度的文本实例的分割结果(最小的kernels)， $S_n$ 具有最大尺度的、也是我们需要的文本实例的分割结果（最大的kernels），然后对这n个分割图做PSE操作，训练的时候，n个分割图与n个对应的ground-truth进行损失计算；检测的时候，直接根据分割图 $S_n$ 得到二值图，然后得到检测结果。
注：

分割图不是黑白的吧，这里可能为了视觉效果，弄成黑白了。

Progressive Scale Expansion(PSE)

每个分割图中，文本实例对应的分割结果称为kernel，扩张的过程其实就是使用BFS的思想，kernel内部的像素不断扩张，直到两个kernel的像素产生冲突停止扩张，处理冲突的办法就是先到先得。
已下是算法的形式化的表示和伪代码
在这里插入图片描述

标注

模型要产生N个分割结果，那么我们就得给它N个ground-truth，怎么得到这N个ground-truth呢？
首先，我们可以根据文本手工得到一个标注框，然后根据它得到二值图，这个二值图就是 $S_n$ 的监督。然后对它按照距离 $d_i$ 进行shrink得到 $S_{i}$ 的监督.
在这里插入图片描述
shrink的大小：大小为 $d_i$ ，它由已下两个公式决定，其中 $P_n$ 是我们根据文本手工得到的标注框中对应的那些kernel，area为它对应的的面积，permimeter是它对应的周长，是已知的，而r也是由于超参数m和n决定的，m是Minimal Kernel Scale，也就是 $S_1$ 中kernel与 $S_n$ 中的kernel的比例，n是分割图的个数。
$d_i=\frac{Area(p_{n})*(1-r_{i}^2)}{Perimeter(p_n)}$ ，其中 $r_i=1-\frac{(1-m)*(n-i)}{n-1}$
注：那么n取几合适一点呢？那么m取几合适一点呢？根据数据集而定。

损失函数

损失 $L$ 主要包含两部分，包括 $S_n$ 这个具有最大尺度的、也是我们需要的文本实例的分割结果的损失 $L_c$ 和之前的小尺度的文本实例分割结果的损失 $L_s$ ，还有一个平衡系数 $\lambda$
$L=\lambda*L_c+(1-\lambda)*L_s$
其中， $L_c与L_s$ 用的损失是Dice loss，也就是相似度越高，损失越小。函数D就是计算相似度的，而M表示在训练的时候，使用了Online Hard Example Mining (OHEM)的技术得到的mask；W表示二值化操作作为mask，只使用文本区域计算损失，非文本区域不计算。
$L_c=1-D(S_n*M,G_n*M)$
$L_s=1-\frac{\sum_{i=1}^{n-1}D(S_i*W,G_i*W)}{n-1}$

注：

因为使用交叉熵损失函数的话，文本实例占据的区域是在太小，网络会倾向于预测非文本区域。所以选择了dice loss。但是以往都是用交叉熵损失函数呀？我觉得这里应该是分割图比较多的缘故吧。
dice系数= $\frac{2|X*Y|}{|X|+|Y|}$ ，表示两个集合的交集中元素的两倍，比上两个集合元素个数得和。dice系数是一种集合相似度度量函数，通常用于计算两个样本点的相似度（值范围为[0, 1]）。而dice loss= $1-\frac{2|X*Y|}{|X|+|Y|}$ ，两个集合越相似，损失越小。
作者给出的dice系数为：
作用用的二值化操作是：阈值选的是0.5