论文解读 | [CVPR2020] ContourNet：向精确的任意形状场景文本检测迈出进一步

最新推荐文章于 2024-01-01 15:19:31 发布

别偷我的猪_09

最新推荐文章于 2024-01-01 15:19:31 发布

阅读量608

点赞数

分类专栏：论文解读文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_44950283/article/details/129046047

版权

论文解读专栏收录该内容

6 篇文章 0 订阅

订阅专栏

ContourNet是一种新型的场景文本检测方法，包括Adaptive-RPN用于自适应地处理文本尺度变化，LOTM模块捕捉局部纹理信息，以及点重定位算法优化边界框定位。该方法通过关注IoU值和局部纹理，提高了对复杂背景中文本的检测精度。

摘要由CSDN通过智能技术生成

论文地址：ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection

1 研究背景和目的

场景文本检测是一项在复杂背景中检测文本区域并用边界框标记它们的任务。在这篇文章中，作者提出了一种不区分尺度的自适应区域建议网络（AdaptiveRPN），通过仅关注预测和地面真实边界框之间的联合交集（IoU）值来生成文本建议。一个新的局部正交纹理感知模块（LOTM）在两个正交方向上对提案特征的局部纹理信息进行建模，并用一组轮廓点表示文本区域。

1.1 主要贡献：

1、我们提出了一种新的FP抑制方法，通过在两个正交方向上对局部纹理信息进行建模，这是一种更直接的方法，与以前的方法相比，计算量更少。

2、所提出的自适应RPN有效地处理了大规模方差问题，并实现了文本区域的更精细定位，这可以很容易地嵌入到现有方法中。

1.2 两个挑战：

第一个挑战是误报（FP）

第二个挑战是场景文本的大规模变化

2 ContourNet

ContourNet 主要由三部分组成：自适应区域建议网络(Adaptive-RPN)、局部正交纹理感知模块(LOTM) 和点重定位算法。

自适应区域建议网络(Adaptive-RPN)：首先通过自动学习文本区域上的一组边界点来生成文本建议，这些边界点指示文本实例的空间扩展。Adaptive-RPN 的训练对象由预测和图像真实边界框之间的 loU 值驱动。与传统的 RPN 方法相比，Adaptive-RPN 对场景文本的大规模变换不敏感，并且可以自动考虑文本区域的形状信息，以实现更精细的定位。

局部正交纹理感知模块(LOTM)：为了捕获文本轮廓区域中的不同纹理特征。LOTM 以两个正交方向上(水平/垂直)对建议特征的局部纹理信息进行建模，并用两个不同热力图中的轮廓点表示文本区域，其中任一热力图仅对特定方向上的纹理特征做出响应。

点重定位算法：通过同时考虑两个正交方向的响应，有效地过滤具有强单向或弱正交激活的预测。以这种方式，文本区域被检测并用一组高质量的轮廓点表示。

3 方法论

3.1 Adaptive-RPN

图2 红点是提案边界框预定义的一组点，绿点是细化点(最后真实边界框的点)，皇上虚线表示回归的偏移量(红点-->绿点)

Adaptive-RPN 只关注预测边界框和真实边界框之间的 loU 值，这是一种比例不变的度量，并使用一组预定义点 P={( $x_{l}, y_{l}$ )} $^{n}_{l=1}$ (1个中心点，n-1 个边界点)来代替建议表示的4维向量。并通过公式1细化这一组预定义点(红点)为真实边界点(绿点)

可以细化表示为：

其中{ $\Delta x_{l}, \Delta y_{l}$ } $^{n}_{l=1}$ 是到预定义点的预测偏移量， $w_{c}$ 和 $h_{c}$ 是当前边界框建议的宽度和高度。

如图2所示，预测的偏移量用于处理当前提案边界框中n个预定义点的局部细化。然后，我们使用下面方程的max-min函数将这些细化点与4个极值点绑定，以表示预测的边界框(Ground-truth bounding box)。其中，中心点 $({x}', {y}')$ 用于规范化边界框（例如，如果 $x_{tl} > {x}'$ ，则 $x_{tl} = {x}'$ ）

3.2 LOTM

图3、LOTM(左)，点重定位算法(右)

如图3所示，LOTM 包含两个分支(水平/垂直) 。在水平方向上，在特征图上滑动大小为 1×k 的卷积核，来模拟水平方向上的局部纹理信息，它只关注 k 范围区域中的纹理特征。而垂直方向上通过大小为 k×1 的卷积核来模拟垂直方向上的纹理特征。k 是超参数，用于控制纹理特征感受野的大小。最后，实施两个 Sigmoid 层，将两个方向上的热图标准化为[0, 1]。这样就可以在两个正交方向上检测文本区域，并在两个不同的热图中用轮廓点表示。

3.3 点重定位算法

Point Re-scoring Algorithm(点重定位算法)用来进一步处理来自 LOTM 的两个热图。如下算法所示，首先通过非最大抑制(NMS)处理不同热图中的点，以实现紧密表示。然后抑制具有强单向或弱正交响应的预测，最后选择两个热图中具有不同响应的点作为候选。最后，文本区域就可以用这些高质量轮廓点组成的边界框表示。

$NMS_{H}$ 和 $NMS_{V}$ 分别表示水平和垂直方向的NMS操作。 θ = 0.5，以更好的权衡召回率和精度。

4 实验和结果

略

别偷我的猪_09

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文解读 | [CVPR2020] ContourNet：向精确的任意形状场景文本检测迈出进一步

首先通过自动学习文本区域上的一组边界点来生成文本建议，这些边界点指示文本实例的空间扩展。LOTM 以两个正交方向上(水平/垂直)对建议特征的局部纹理信息进行建模，并用两个不同热力图中的轮廓点表示文本区域，其中任一热力图仅对特定方向上的纹理特征做出响应。1、我们提出了一种新的FP抑制方法，通过在两个正交方向上对局部纹理信息进行建模，这是一种更直接的方法，与以前的方法相比，计算量更少。图2 红点是提案边界框预定义的一组点，绿点是细化点(最后真实边界框的点)，皇上虚线表示回归的偏移量(红点-->绿点)
复制链接

扫一扫