SegLink

【CVPR2017】Detecting Oriented Text in Natural Images by link Segments

原文链接:https://arxiv.org/pdf/1703.06520.pdf

SegLink是一个改进版的SSD,用来解决多方向的文字检测问题。

pipline

Step1

将图像输入到SSD网络,同时输出两类信息:

(1) text的box信息。该box是多方向的,即带有角度信息;box不是整个文本行(或单词)的box,而是文本行(或单词)的一个部分,称为segment,它可能是一个字符或者几个字符、一个单词等。如下图一个黄色框即为一个segment:


(2) 不同box的link信息。因为segment是类似于字符级别或者单词级别的,但是最后目标是输出整个文本行(或者单词),所以如果按以前传统方法,是要后处理把这些segment连接成文本行(或者单词)的,文章的高明之处在于把这个link也弄到网络中去自动学习了,网络自动学习出哪些segment属于同一个文本行(或者单词),比如上图中连接两个黄框的绿色线即为一个link。

Step2

有了segment的box信息和link信息,用一个融合的算法即可得到最后的文本行的box(带方向的,x,y,w,h,θ)。

与SSD的区别

(1)SSD只输出rectangle bounding box(x,y,w,h四个参数),SegLink加入了角度信息,输出的是oriented bounding box(x,y,w,h,θ),θ表示矩形框的角度(与水平方向的夹角,顺时针为正,逆时针为负)。

(2)SSD每个feature map的每个位置上有多个不同的aspect radio的default box,SegLink每个位置上只有一个default box(加速的原因之一);

(3)SSD每层的feature map决定的default box的scale人工定义(10-90,平均分5次);segLink的scale由感受野大小来决定。

(4)seglink最大的亮点是该网络不但学习了segment的box,也学习了segment之间的link关系,来表示是否属于同一个单词(或者同一文本线)。

(5)seglink训练用的ground truth除了因为多方向所以用的旋转后的ground truth,还要有一个link的ground truth.

(6) seglink网络的损失函数中加入了link的损失项。

SegLink方法优势

多方向、速度快、精度高、易训练、可检测任意长度的文本。


参考:

[1]  https://www.cnblogs.com/lillylin/p/6596731.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值