【Paper Reading】【TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes】

  • 能检测弯曲文本/任意形状文本
  • main contributions:
  • 提出一种任意形状场景文本的通用表示方法
    • 提出一种基于上述表示方法的有效文本检测方法
    • 上述检测方法在水平、倾斜和弯曲文本数据集上都取得良好效果
Methodology
  • 用一系列相互重叠的disk表示文本序列,每个disk以文本行中心线为圆心,带有半径和方向。半径r为局部宽度的1/2。方向θ为中心线与中心c的正切方向。
  • disk并未与character一一对应
  • 网络输出
    • score map of text center line(TCL)
    • score map of text regions(TR)
    • 半径r,sinθ,cosθ
    • TR可用作TCL的mask
  • 网络结构
    网络结构
    • backbone:VGG16/19 or ResNet without FC layers
    • feature merging network(UNet)
    • outputs:
      • 7 channels,4 for logits of TR/TCL,3 for r,cosθ,sinθ。
      • softmax for TR/TCL and regularizing cosθ and sinθ
      • striding algorithm
        a)Centralizing:从TCL中随机选取一个起始点,作切线(tangent line)和法线(normal line)。法线与TCL区域交集的重点即为所求的centralized point
        b)String:向两个相反的方向进行搜索,直至端点
        c)Sliding:算法沿中心轴迭代,画圆圈
        网络输出
      • filter out false positive text instances:
        a) TCL像素的数目至少应为平均半径的0.2倍
        b) 重构文本区域的像素,至少有一半属于TR
      • label generation
      • training objectives
        训练目标
      • Ltr与Ltcl为交叉熵损失,TR loss使用OHNM,N:P=3:1;其余为smoothedL1 Loss。Lr = SmoothedL1((R - r) / r)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值