TextSnake算法

最新推荐文章于 2022-03-15 15:02:10 发布

chiyustory

最新推荐文章于 2022-03-15 15:02:10 发布

阅读量2.6k

点赞数 4

分类专栏：计算机视觉文章标签： TextSnake

本文链接：https://blog.csdn.net/attitude_yu/article/details/86678255

版权

1. 摘要

在深度神经网络和大规模数据集的推动下，自然场景文本检测方法在过去的几年里取得了巨大的进步，不断刷新各种基准记录。然而，如下图所示，受到描述文本表征(水平矩形框、旋转矩形框或任意四边形框)的限制，现有的方法在处理更自由形式的文本实例(例如弯曲文本)时可能会表现的差强人意，而这些文本实例往往在实际中非常常见。为了解决这个问题，本文提出了一种更灵活的场景文本表征，称为TextSnake，它能够以水平、多方向和弯曲的形式有效地表征文本实例。在TextSnake中，文本实例检测框表征为以对称轴为中心的有序的、重叠的圆盘序列，每个圆盘都有其可变的半径和方向。

2. TextSnake算法

2.1 文本表征

文本区域TR(黄色)利用一系列有序圆盘(蓝色)来表示，每个圆盘位于中心线TCL(绿色，即对称轴)上，圆盘的几何形状与半径r和方位θ相关联。其与传统的表征方式(轴对齐矩形、旋转矩形和四边形)相比，不考虑文本区域的形状和长度。

数学定义：由几个字符组成的文本实例t可以看作是一个有序列表S(t)。S(t)={D0,D1,…,Di,…,Dn}，其中Di代表ith圆盘，n代表圆盘数。每个圆盘D又由一组几何属性表示，即D=(c, r, θ)，其中c、r和θ分别是圆盘D的中心、半径和方向。半径r定义为t的局部区域宽度的一半，而方向θ是当前圆盘与下一个圆盘中心点连线与水平方向的夹角。当获得S(t)后，则可重建弯曲的文本区域。另外注意，圆盘不对应t中的单个字符，即圆盘是重叠的。

2.2 网络结构

基于FCN+FPN网络预测文本框，包含特征提取、特征合并、输出层三个阶段。

特征提取：VGG-16/19；

特征合并：按顺序叠加各个阶段，每个阶段由一个从上一阶段提取的特征图和相应的主干网络层组成。合并过程由下列方程定义：

最低0.47元/天解锁文章

chiyustory

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
TextSnake算法

1. 摘要在深度神经网络和大规模数据集的推动下，自然场景文本检测方法在过去的几年里取得了巨大的进步，不断刷新各种基准记录。然而，如下图所示，受到描述文本表征(水平矩形框、旋转矩形框或任意四边形框)的限制，现有的方法在处理更自由形式的文本实例(例如弯曲文本)时可能会表现的差强人意，而这些文本实例往往在实际中非常常见。为了解决这个问题，本文提出了一种更灵活的场景文本表征，称为Tex...
复制链接

扫一扫