【CVPR2017】Detecting Oriented Text in Natural Images by link Segments
原文链接:https://arxiv.org/pdf/1703.06520.pdf
SegLink是一个改进版的SSD,用来解决多方向的文字检测问题。
pipline
Step1
将图像输入到SSD网络,同时输出两类信息:
(1) text的box信息。该box是多方向的,即带有角度信息;box不是整个文本行(或单词)的box,而是文本行(或单词)的一个部分,称为segment,它可能是一个字符或者几个字符、一个单词等。如下图一个黄色框即为一个segment:
(2) 不同box的link信息。因为segment是类似于字符级别或者单词级别的,但是最后目标是输出整个文本行(或者单词),所以如果按以前传统方法,是要后处理把这些segment连接成文本行(或者单词)的,文章的高明之处在于把这个link也弄到网络中去自动学习了,网络自动学习出哪些segment属于同一个文本行(或者单词),比如上图中连接两个黄框的绿色线即为一个link。
Step2
有了segment的box信息和link信息,用一个融合的算法即可得到最后的文本行的box(带方向的,x,y,w,h,θ)。
与SSD的区别
(1)SSD只输出rectangle bounding box(x,y,w,h四个参数),SegLink加入了角度信息,输出的是oriented bounding box(x,y,w,h,θ),θ表示矩形框的角度(与水平方向的夹角,顺时针为正,逆时针为负)。
(2)SSD每个feature map的每个位置上有多个不同的aspect radio的default box,SegLink每个位置上只有一个default box(加速的原因之一);
(3)SSD每层的feature map决定的default box的scale人工定义(10-90,平均分5次);segLink的scale由感受野大小来决定。
(4)seglink最大的亮点是该网络不但学习了segment的box,也学习了segment之间的link关系,来表示是否属于同一个单词(或者同一文本线)。
(5)seglink训练用的ground truth除了因为多方向所以用的旋转后的ground truth,还要有一个link的ground truth.
(6) seglink网络的损失函数中加入了link的损失项。
SegLink方法优势
多方向、速度快、精度高、易训练、可检测任意长度的文本。
参考:
[1] https://www.cnblogs.com/lillylin/p/6596731.html