【论文解读】【文字检测】SegLink

11 篇文章 3 订阅
11 篇文章 1 订阅

 

Detecting Oriented Text in Natural Images by Linking Segments

一、作者

二、主要思想

将文本检测的全局问题拆分成两个局部可检测元素:segmentslinks;然后使用这两个元素合并成为bbox。

三、Overview

3.1 优势:

- 适用于任意长度文本,任意方向的文本

- 速度快

3.2 与SSD的不同

- SSD直接预测bbox

- Seglink自底向上检测2种类型元素

四、Segment Linking

4.1 网络架构

- backbone为VGG16的conv1到pool5

- 替换fc6、fc7为conv6、conv7

- 外加一些额外的卷积层:conv8_1到conv11(更深的层具有更大的感受野)

- 使用6个卷积的输出做两类元素的预测器,分别为:conv43, conv7, conv82, conv92, conv102和conv11,成为l1到l6(特征图缩小的原因是maxpooling的使用)

1)Segment Detection

- segments表示为:s= (xs, ys, ws, hs, θs),计算方式为通过距离默认框的物理偏移和置信度

- 一个默认框及其置信度、偏移量都强绑定到当前特征图

- 假设一个第l层特征图的x, y位置的像素对应的默认框坐标为xa, ya,计算公式为公式(1),其中wI、hI为图片的尺寸。

- 默认框的尺寸设置为al*al,al理应被设置为l层的感受野尺寸,按照经验为:

- 对于一个segment 检测,卷积预测器输出7个通道。其中,前2个通道代表置信度,后5个通道代表偏移量(∆xs,∆ys,∆ws,∆hs,∆θs);因此一个segment被表示为公式(2-6)

2)Within-Layer Link Detection

- link不仅能指示两个segments的连接,也能确定出哪些相距较近的不应该被连接的segments的连接

- 如图3所示,定义within-layer neighbors为8连接的区域,如公式(7)所示,因此输出的channel数量为2*8=16个

3)Cross-Layer Link Detection

- 需要该link的原因:l1-l6会对同一文本区域同时预测出不同的segments,造成冗余

- 通过基于maxpooling层的下采样,l1到l6每层特征图尺寸都缩小1倍

- 每个segment具有4个跨层cross-layer link,对应到其前一特征层的感受野的位置,如公式(8)所示,因此输出为8通道。

- cross-layer link存在与l2到l6,因为l1(conv4_3)不存在前层特征层

- 通过cross-layer links,后处理可以讲不同尺度的特征预测的segments连接起来

4) Outputs of a Convolutional Predictor

- 如图4,一个卷积预测器的输出为31通道(l1为23通道),最终经过softmax即可输出

4.2 Segments和links的结合

- 对segments和links使用不同的阈值进行过滤,分别为α和β

- 将segments看作结点,将linksks看作边,构造一个图

- 使用DFS(深度优先)算法进行连通区域的生成

- 对于上步产出的连通区域B,使用Alg1来结合生成文本框。其实就是1)计算平均角度;2)计算平均的中心是的l2距离最小;3)找出所有segments的中心到该中心和角度构成的直线的垂直投影;4)找到最长距离和最宽距离,计算bbox

五、训练

5.1 GT生成

- gt包含3个部分:1)所有默认框的置信度标签;2)到默认框的偏移量;3)within-layer links和cross-layer links

- 只有单图只有1个bbox的情况:默认框被标注为正样本的两个条件:1)默认框的中心在文字框内部;2)默认框尺寸al与文字高度h满足:max(al/h, h/al)<=1.5。否则,默认框被标记为负样本。

- 单图多bbox的情况:如果不满足上述两点,被标记为负样本;否则被标记为正样本并匹配到最相近尺寸的文字框中。

- 根据默认框及其匹配的文字框计算offsets,分为两步:1)计算gt-segement的中心xs、ys,具体计算过程如图5;2)根据公式(2-6)计算偏移量。

- link设置为正样本的条件为:1)所连接的默认框均为正样本;2)两个默认框指向同一文本行

5.2 优化

2)损失函数

分为三个部分:segment分类;offsets回归;link分类。

具体如公式(10)所示,其中Ns是正默认框的数量,用来做归一化,Nl是正的links的数量,也用来做归一化,分类损失使用softmax loss,回归损失使用Smooth L1损失,λ1和λ2都设置为了1

2)Online Hard Negative Mining

这部分是直接使用在线负样本挖掘算法,保持正负样本比例1:3

3) Data Augmentation

使用类似SSD和YOLO的数据增强策略

六、一些效果可视化

七、一些结论:

7.1 局限

1)两个阈值需要手动设置

2)对于打空格预测不好,如图8

 

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值