TextSnake算法

1. 摘要

        在深度神经网络和大规模数据集的推动下,自然场景文本检测方法在过去的几年里取得了巨大的进步,不断刷新各种基准记录。然而,如下图所示,受到描述文本表征(水平矩形框、旋转矩形框或任意四边形框)的限制,现有的方法在处理更自由形式的文本实例(例如弯曲文本)时可能会表现的差强人意,而这些文本实例往往在实际中非常常见。为了解决这个问题,本文提出了一种更灵活的场景文本表征,称为TextSnake,它能够以水平、多方向和弯曲的形式有效地表征文本实例。在TextSnake中,文本实例检测框表征为以对称轴为中心的有序的、重叠的圆盘序列,每个圆盘都有其可变的半径和方向

2. TextSnake算法

2.1 文本表征

       文本区域TR(黄色)利用一系列有序圆盘(蓝色)来表示,每个圆盘位于中心线TCL(绿色,即对称轴)上,圆盘的几何形状与半径r和方位θ相关联。其与传统的表征方式(轴对齐矩形、旋转矩形和四边形)相比,不考虑文本区域的形状和长度。

       数学定义:由几个字符组成的文本实例t可以看作是一个有序列表S(t)。S(t)={D0,D1,…,Di,…,Dn},其中Di代表ith圆盘,n代表圆盘数。每个圆盘D又由一组几何属性表示,即D=(c, r, θ),其中c、r和θ分别是圆盘D的中心、半径和方向。半径r定义为t的局部区域宽度的一半,而方向θ是当前圆盘与下一个圆盘中心点连线与水平方向的夹角。当获得S(t)后,则可重建弯曲的文本区域。另外注意,圆盘不对应t中的单个字符,即圆盘是重叠的。

2.2 网络结构

        基于FCN+FPN网络预测文本框,包含特征提取、特征合并、输出层三个阶段。

        特征提取:VGG-16/19;       

        特征合并:按顺序叠加各个阶段,每个阶段由一个从上一阶段提取的特征图和相应的主干网络层组成。合并过程由下列方程定义:

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值