SegLink

最新推荐文章于 2020-10-19 17:57:28 发布

XYZ_916

最新推荐文章于 2020-10-19 17:57:28 发布

阅读量2.6k

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

【CVPR2017】Detecting Oriented Text in Natural Images by link Segments

原文链接：https://arxiv.org/pdf/1703.06520.pdf

SegLink是一个改进版的SSD，用来解决多方向的文字检测问题。

pipline

Step1

将图像输入到SSD网络，同时输出两类信息：

(1) text的box信息。该box是多方向的，即带有角度信息；box不是整个文本行（或单词）的box,而是文本行（或单词）的一个部分，称为segment,它可能是一个字符或者几个字符、一个单词等。如下图一个黄色框即为一个segment:

(2) 不同box的link信息。因为segment是类似于字符级别或者单词级别的，但是最后目标是输出整个文本行（或者单词），所以如果按以前传统方法，是要后处理把这些segment连接成文本行（或者单词）的，文章的高明之处在于把这个link也弄到网络中去自动学习了，网络自动学习出哪些segment属于同一个文本行（或者单词），比如上图中连接两个黄框的绿色线即为一个link。

Step2

有了segment的box信息和link信息，用一个融合的算法即可得到最后的文本行的box(带方向的，x,y,w,h,θ)。

与SSD的区别

(1)SSD只输出rectangle bounding box(x,y,w,h四个参数)，SegLink加入了角度信息，输出的是oriented bounding box(x,y,w,h,θ),θ表示矩形框的角度（与水平方向的夹角，顺时针为正，逆时针为负）。

(2)SSD每个feature map的每个位置上有多个不同的aspect radio的default box，SegLink每个位置上只有一个default box(加速的原因之一)；

(3)SSD每层的feature map决定的default box的scale人工定义（10-90，平均分5次）；segLink的scale由感受野大小来决定。

(4)seglink最大的亮点是该网络不但学习了segment的box,也学习了segment之间的link关系，来表示是否属于同一个单词（或者同一文本线）。

(5)seglink训练用的ground truth除了因为多方向所以用的旋转后的ground truth，还要有一个link的ground truth.

(6) seglink网络的损失函数中加入了link的损失项。

SegLink方法优势

多方向、速度快、精度高、易训练、可检测任意长度的文本。

参考：

[1] https://www.cnblogs.com/lillylin/p/6596731.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。