CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》阅读笔记

最新推荐文章于 2020-08-28 19:31:04 发布

ryERO

最新推荐文章于 2020-08-28 19:31:04 发布

阅读量370

点赞数 1

分类专栏： Scene Text Detection 文章标签： Scene Text Detection Computer Vision Object Detection Deep Learning Oriented Text

本文链接：https://blog.csdn.net/u011627998/article/details/102720897

版权

本文是关于CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》的阅读笔记，介绍了针对自然场景文本检测的方法，通过分割和链接技术进行文本检测。模型基于SSD，采用多尺度融合，连接类型包括层内和跨层。通过深度优先搜索组合分割生成单词框，并讨论了训练和优化过程。

摘要由CSDN通过智能技术生成

前言

本文是对CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》论文的简要介绍和细节分析。该论文是华中科大白翔组的工作，主要针对自然场景下文本检测模型由char-level到word-level和line-level的检测。
关键词：SSD、Segment、Link、Scene Text Detection
注：编者水平有限，如有谬误，欢迎指正。若要转载，请注明出处，谢谢。
联系方式：
邮箱：yue_zhan@yahoo.com
QQ：1156356625

Introduction

自然场景下的文本检测可以看作一种特殊的目标检测，在模型的第一步，往往需要生成能够足够覆盖单词或者句子的bounding box。但是不同于真实世界的实体，自然场景的文本角度多变、长短不一、间隔不同，普通的目标检测算法不能很好胜任。
所以在目标检测的模型基础上，作者提出了将自然场景文本分解为两个元素：分割 (segment)和连接 (link)，二者联立将重复的多尺度字符框连接成单词或者句子。

模型具备以下特点：

分割和连接同时进行，不需要分开训练。
以SSD为基础模型
多尺度融合
两种连接类型：1-层内连接 2-跨层连接

模型的思想还是很符合直觉的，其难点是怎样把分割和连接的思想有效转化为模型结构，并且能在代码层面进行实现(同时避免大量造轮子)。

Segment Linking

模型框架：
在这里插入图片描述
一些细节：
模型bounding box的表达形式为 $(x_b,y_b,w_b,h_b,\theta_b)$ ，其中 $w_b,h_b$ 是框的中心坐标， $\theta_b$ 是框的水平夹角(倾斜角)。分割和连接只运用在某些层的feature map上，文中共选用了6层。

segment detection

文中的分割并非是指单一的像素级的分割，而是等同回归框检测+特征层像素分割的的分割。采用了SSD框架中的的default boxes，但是feature map的每个位置上只用一个框作为简化。考虑第 $l$ 个特征层的尺寸为 $w_l\times h_l$ ，坐标 $(x, y)$ 对应的default box中心为 $x_b,y_b)$
$x_a=\frac{w_I}{w_l}(x+0.5)\tag{1}$ $y_a=\frac{w_I}{w_l}(y+0.5)\tag{2}$