目标检测之模型篇（3）【DMPNet】

最新推荐文章于 2024-09-16 16:06:05 发布

Lilith_99

最新推荐文章于 2024-09-16 16:06:05 发布

阅读量3.9k

点赞数 2

分类专栏：目标检测深度学习模型

本文链接：https://blog.csdn.net/weixin_38708130/article/details/83746068

版权

DMPNet是一种文本检测方法，通过四边形滑动窗口减少背景冗余，提高召回率和准确率。文章介绍了shared Monte-Carlo方法计算重叠区域，利用Sequential protocol确定四边形顶点，以及Smooth Ln损失提升定位精度。实验结果在ICDAR 2015数据集上表现出色。

摘要由CSDN通过智能技术生成

1. 前言

本周第三篇模型文章，读的是我工电信院大佬发的paper，莫名亲切感~DMPNet全称Deep Matching Prior Network（深度匹配先验网络）。常规的文本检测一种主流方法是基于成分（SWT,MSER算子等），但是在保留真实字符方面有一定局限性；另一种主流方法是基于滑动窗口，但是它容易误报且夹杂背景冗余。最近的流行是基于卷积神经网络CNN，常规的是矩形窗口，而本文提出了四边形滑动窗口（分要分两步：粗略回忆文本和精细调整预测的边框），能更有效的减少冗余。

总体思路：
1.在几个特定的中间卷积层中使用四边形滑动窗口来粗略地回忆重叠区域较高的文本；
2.提出了一种shared Monte-Carlo method来快速准确地计算多边形区域；
3.在此基础上，设计了一种用于关联回归的sequential protocol，该协议能够准确地预测文本内容；
4.为了进一步回归文本的位置，还提出了一种辅助的光滑Ln损失，在鲁棒性和稳定性方面，它的整体性能优于L2损失和光滑L1损失。

2. 实现

2.1 Roughly recall text with quadrilateral sliding window

由于水平滑动窗口并不能recall多方向的文本，本文基于文本的内在形状，提出了大量的四边形滑动窗口来大致recall文本。

使用重叠阈值（overlapping threshold）

关于阈值的选择问题，太大的阈值会使文本很难recall，而太小的阈值又引来大量背景噪声。使用四边形滑动窗口，滑动窗口与ground truth的重叠区域可以足够大，达到更高的阈值，有利于提高召回率和准确率。

（a）图黑色框代表groud truth，蓝色框是水平矩形滑动窗口，红色是本文提出的四边形滑动窗口。可见，四边形滑动窗口的IoU比水平矩形滑动窗口高很多，这有利于recall文本。
（b）图是水平矩形滑动窗口，正方形有大小两个尺寸，长方形有横竖两个方向。
（c）图是本文提出的四边形滑动窗口，保留了水平滑动窗口，同时基于文本内在形状的先验知识在其中设计几种四边形：
[c-1]在正方形内增加了两个45度角倾斜的矩形（棕色）；
[c-2]在横矩形内增加了两个平行四边形（红色、绿色）；
[c-3]在竖矩形内增加了两个平行四边形（紫色、黄色）；
有了这些灵活的滑动窗口，粗边框变得更加精确，因此子序列精细过程可以更容易地定位文本。另外，由于背景噪声较小，这些四边形滑动窗口的置信度在实际应用中更可靠，可以用来消除误报。

Shared Monte-Carlo方法
该方法在计算多边形面积的同时具有较高的速度和精度。

step1: 在Ground Truth的外切矩形中均匀采样10,000个点。Ground Truth面积( $S_{GT}$ )的计算方法是通过计算重叠点在所有点上的比例乘以外切矩形的面积。在这一步中，Ground Truth内部的所有点将被保留以供共享计算。
step2：如果每个滑动窗口的外切矩形和每个Ground Truth的外切矩形没有交集，重叠区域为零，不需要进一步计算；如果重叠区域不为零，我们使用相同的采样策略来计算滑动窗口( $S_{SW}$ )的面积，然后计算从第一步到滑动窗口内保留的点的数量。GT内点与外切矩形面积的比值为重叠的区域。特别地，这个步骤适合我们进行GPU并行化，因为我们可以使用每一个线程来负责计算每一个给定Ground Truth的滑动窗口，这样我们就可以在短时间内处理数千个滑动窗口。