CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》阅读笔记

本文是关于CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》的阅读笔记,介绍了针对自然场景文本检测的方法,通过分割和链接技术进行文本检测。模型基于SSD,采用多尺度融合,连接类型包括层内和跨层。通过深度优先搜索组合分割生成单词框,并讨论了训练和优化过程。
摘要由CSDN通过智能技术生成

前言

本文是对CVPR2017《Detecting Oriented Text in Natural Images by Linking Segments》论文的简要介绍和细节分析。该论文是华中科大白翔组的工作,主要针对自然场景下文本检测模型由char-level到word-level和line-level的检测。
关键词:SSDSegmentLinkScene Text Detection
注:编者水平有限,如有谬误,欢迎指正。若要转载,请注明出处,谢谢。
联系方式:
邮箱:yue_zhan@yahoo.com
QQ:1156356625


Introduction

自然场景下的文本检测可以看作一种特殊的目标检测,在模型的第一步,往往需要生成能够足够覆盖单词或者句子的bounding box。但是不同于真实世界的实体,自然场景的文本角度多变、长短不一、间隔不同,普通的目标检测算法不能很好胜任。
所以在目标检测的模型基础上,作者提出了将自然场景文本分解为两个元素:分割 (segment)连接 (link),二者联立将重复的多尺度字符框连接成单词或者句子。

在这里插入图片描述
模型具备以下特点:

  • 分割和连接同时进行,不需要分开训练。
  • 以SSD为基础模型
  • 多尺度融合
  • 两种连接类型:1-层内连接 2-跨层连接

模型的思想还是很符合直觉的,其难点是怎样把分割和连接的思想有效转化为模型结构,并且能在代码层面进行实现(同时避免大量造轮子)。

Segment Linking

模型框架:
在这里插入图片描述
一些细节:
模型bounding box的表达形式为 ( x b , y b , w b , h b , θ b ) (x_b,y_b,w_b,h_b,\theta_b) (xb,yb,wb,hb,θb),其中 w b , h b w_b,h_b wb,hb是框的中心坐标, θ b \theta_b θb是框的水平夹角(倾斜角)。分割和连接只运用在某些层的feature map上,文中共选用了6层。

segment detection

文中的分割并非是指单一的像素级的分割,而是等同回归框检测+特征层像素分割的的分割。采用了SSD框架中的的default boxes,但是feature map的每个位置上只用一个框作为简化。考虑第 l l l个特征层的尺寸为 w l × h l w_l\times h_l wl×hl,坐标 ( x , y ) (x,y) (x,y)对应的default box中心为 ( x b , y b ) (x_b,y_b) (xb,yb)
x a = w I w l ( x + 0.5 ) (1) x_a=\frac{w_I}{w_l}(x+0.5)\tag{1} xa=wlwI(x+0.5)(1) y a = w I w l ( y + 0.5 ) (2) y_a=\frac{w_I}{w_l}(y+0.5)\tag{2} ya=wl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值