TextMountain: Accurate Scene Text Detection via Instance Segmentation论文阅读

最新推荐文章于 2024-09-10 16:00:52 发布

giganticpower

最新推荐文章于 2024-09-10 16:00:52 发布

阅读量300

点赞数

文章标签：深度学习 pytorch 神经网络

本文链接：https://blog.csdn.net/giganticpower/article/details/117470790

版权

TextMountain: Accurate Scene Text Detection via Instance Segmentation

通过实例分割的准确的场景文本检测

论文解析

- TextMountain: Accurate Scene Text Detection via Instance Segmentation
论文核心思想
- 培训与推理细节
- - 结果分析

论文核心思想

主要贡献一：
我们提出了一种新的方法——文本山，它由TS, TCBP and TCD组成。实验证明，TCBP 能够很好地分离文本行并对其进行分组，同时 TCD能够更好地帮助TCBP学习。
在这里插入图片描述
TS:
TS将每个像素分类为文本或非文本，我们将文本多边形内的像素标记为正样本，而不是负样本。
类不平衡是一个严重的问题，因为一幅图像中的大多数像素是负样本，所以有许多方法可以解决类不平衡问题，如类平衡交叉熵，比例选择和硬负挖掘。在本文中，我们使用硬负挖掘（hard negative mining），选择最hard的负样本，正负样本之比设为1/3。

TCBP:
将中心-边界视为概率图，因为我们认为边界或中心的硬决策并不总是准确的。并且TCBP中包含的信息更多，概率增长的上升方向指向文本中心，有利于像素的分组。在我们的设计中，弯曲文本的定义与四边形相同，都是基于文本行的四条边(弯曲的文本行也有四条边，但其中两条可能是弯曲的)。为了简单起见，我们用四边形文本行来说明我们的方法，它可以很容易地扩展到曲线文本行。
在这里插入图片描述

也就是四条边的垂线，到焦点的距离，选最小的，占宽度的比值为这个点的概率值。

TCD:
TCD上的每个像素都将指向它所属的中心，它就像是最快的山路。
在这里插入图片描述
同样利用上面那个点的垂线图，计算这个点的向心概率值。

主要贡献二：
提出了一个可以并行计算的分组思想，加快推理阶段的后处理速度。
对于TCBP，我们选择每个像素的8邻域中最大的点作为下一个点。
对于TCD，下一点计算如下
在这里插入图片描述
其中ux是TCD的预测向量。我们量化方向，因为只有8个相邻方向nex是量化的结果
当定向图生成后，山脚下的每一个像素都会一步一步爬上它的山峰，用山峰的颜色来描绘自己。每个点的方向是确定的，所以这个任务可以并行高效地解决，所有像素可以同时爬山。不需要每个像素都走过所有的路径，当山脚下的一些像素爬到山中间的时候，山中间的像素已经爬到山顶并且被着色了，我们可以用山中间的像素的颜色直接给山脚下的像素着色。实际上，我们增加了计算线程的数量，但只是额外产生了一点计算复杂性。为了加速算法和避免循环，我们添加了一个块状态图，它指示该路由是否是块。程序总结在算法1中
在这里插入图片描述

培训与推理细节

CPU is Intel® Core™i7-7700K and GPU is GeForce GTX 1080Ti.

backbone: resnet50
FPN特征通道统一：256
用随机梯度下降法训练
采用“多元”学习率政策
在这里插入图片描述
base_Lr = 0.005
power = 0.9
重量衰减设置为0.0001，动量设置为0.9，批量设置为12。
文本中心实例评分阈值设置为0.7，TS上文本边框阈值设置为0.6。
采用了数据增强
手段为随机剪裁，随机旋转
随机剪裁在四边形文本中进行错位
在多边形文本中不进行。