DDR(Deep Direct Regression )算法详解

DDR算法针对多方向场景文本检测提出直接回归方法,解决了传统方法在处理文字大小、方向差异时的挑战。该算法在ICDAR2015数据集上取得了0.81的F-measure。与Faster-RCNN等方法不同,DDR不使用提案,而是直接从特征点回归目标框,提高了检测效率。通过限制正样本的短边尺寸和改进的NMS策略,DDR能更准确地检测文本并减少误检。
摘要由CSDN通过智能技术生成

论文:Deep Direct regression for multi-oriented scene text detection
论文链接:https://arxiv.org/pdf/1703.08289.pdf

要解决的问题:

传统的object detection算法比如Faster-RCNN,SSD和YOLO可以应用在horizontal scene texts detection上,而且检测效果也不错,但是难以应用在multi-oriected scene text detection中。其原因主要是因为texts的大小,方向,横纵比等差异较大,本文采用直接回归的方式可以避免将proposal应用在multi-oriented texts带来的困难。

本文算法的结果在ICDAR2015数据集上的F-measure达到0.81
不过目前还没有公开代码

算法概要:

输入图像大小320*320,经过卷积和降采样的堆叠,另外中间有三次feature融合的过程,类似Resnet的做法,每次融合完都要做反卷积,最后网络得到128*80*80的输出。这个输出一方面作为分类模块的输入,分类模块将会得到输出map,map上每个点代表score,map大小是(1*80*80);另一方面作为回归模块的输入,回归模块将会得到map,map上每个点代表回归出来的四边形框的四个点坐标的offset(8*80*80),可以简单理解为4个点坐标。最后用一个改进版本的NMS:Recalled NMS做精修,主要解决两个text相离很近时如何既能去除横跨这两个text的错误框,同时保留正确框。本文的一个特点是对ground truth的选取和传统做法不一样,采用和text center line距离在一定范围之内的像素点作为positive,围绕positive有一个过渡区域作为not care区域,再以外才是negative。另外对positive的短边尺寸还做了限制。本文的另一个特点就是直接回归生成预测结果,没有中间的proposal,这是和其它算法很大的不同。

算法详解:

作者在这篇文章给出了两个定义:Indirect Regression和Direct Regression。可以从fig1中看出差别。fig1.a是Indirect Regression,类似Faster-RCNN,SSD等算法都是这种方式,通过回归proposal和ground truth的offset来得到预测结果,黄色虚线表示回归过程。而fig1.b是Direct

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值