【论文笔记】Deep Direct Regression for Multi-Oriented Scene Text Detection

本文提出了一种基于直接回归的多方向场景文本检测算法,包括特征提取、特征融合、多任务学习和后处理四个部分。网络结构通过多层卷积获取大感受野特征,Groundtruth和Loss函数用于指导学习,Recalled NMS后处理方法解决了结果冗余问题。实验在ICDAR2013、ICDAR2015和MSRA-TD500数据集上进行。
摘要由CSDN通过智能技术生成

文献: Wenhao He, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu. Deep Direct Regression for Multi-Oriented Scene Text Detection[J]. arXiv preprint arXiv:1703.08289v1.

  本文将目前的检测方法归类为以下两种:直接回归和间接回归。间接回归指通过预测bounding box proposals的offsets进行的检测方法,如faster-rcnn,ssd等;直接回归指通过一个给定的点预测它的offsets得到边界的检测方法。本文提出了一种基于直接回归的自然场景下的多方向文本检测算法。

-网络结构
-Groundtruth和Loss函数
-Post Processing
-实验设置


  本文的检测系统如下图所示,主要包括四个部分:特征提取,特征融合,多任务学习以及后处理。


这里写图片描述

1. 网络结构

  检测系统的前三个部分组成了文章的网络结构。
1)特征提取:在多个卷积层进行特征提取,增加了最大感受野的范围。确保回归任务可以检测出更长的文本,同时提高边界预测的准确度。
2)特征融合:从多个尺度的feature map上提取特征,再进行融合。为了减少计算量,文章仅将融合特征map上采样至原图像尺寸的1/4,具体见下图所示(在原论文图基础上做了尺寸的标注)。
3)多任务学习:主要有两个任务的学习,分类任务和回归任务。分类任务的输出 Mcls 是一个大小为 S4×S4 的2维张量,用来预测是否为文本,张量内的元素分数越高是文本的可能性就越大;回归任务的输出 Mloc 是一个大小为 S4×S4×8 的3维张量, Mloc 中位置 (w,h,c) 的值 L(w,h,c) 表示原始图像中点 (4w,4h) 到文本bounding box的4个顶点的offsets。所以,四边形 B(w,h

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值