SegLink ++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping

角度

该论文针对的是文本检测任务中类似于商品信息等图片具有密集且任意形状的文本框的问题。首先作者分析了现有的两个文本检测的大方向,第一个是自上而下的检测方法,这一类方法大多直接回归一个文本框或四边形来标注文本区域。这一类方法的好处是对于多方向的文本检测比较好,但是它很难处理好训练数据在长宽比上的不均匀的问题,导致了对横宽比比较奇异的文本检测能力差,同时,因为回归一整个框的缘故,对于奇异形状文本的检测也比较弱。另一类方法是自下而上的检测方法,这一类方法可以分为两种,一种是如同PSENet一样回归pixel级别的结果后聚合成文本块,另一种是如同本文一样回归一些文本块,后通过连线等成为大的文本框。这类方法对与奇异形状的文本有较好的表现,但是对于密集的文本容易混淆,同时,后处理用时严重,基于此,作者提出一个基于从下到上的,可以在密集文本中区分不同文本块的Instance-aware Component Grouping方法。

思想

作者在原先的SegLink的基础上增加了两种线,一种是attractive link,一种是repulsive link,这两种线,一种是将属于同个文本区域的seg相连,一种是将属于不同文本区域的seg相拒。特别的,作者还提出了一种instance-aware loss,将后处理加入到优化中

Seglink的思想是用SSD来做文本块的检测,而且不是一次检测一整个文本框,而是文本框的一部分

细节

1. 网络的流程

网络生成文本块&attractive link和repulsive link–>用modified mini

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值