DDR（Deep Direct Regression ）算法详解

最新推荐文章于 2024-08-16 07:58:04 发布

AI之路

最新推荐文章于 2024-08-16 07:58:04 发布

阅读量4.6k

点赞数 1

分类专栏：深度学习计算机视觉 OCR 文章标签：算法

本文链接：https://blog.csdn.net/u014380165/article/details/72742631

版权

DDR算法针对多方向场景文本检测提出直接回归方法，解决了传统方法在处理文字大小、方向差异时的挑战。该算法在ICDAR2015数据集上取得了0.81的F-measure。与Faster-RCNN等方法不同，DDR不使用提案，而是直接从特征点回归目标框，提高了检测效率。通过限制正样本的短边尺寸和改进的NMS策略，DDR能更准确地检测文本并减少误检。

摘要由CSDN通过智能技术生成

论文：Deep Direct regression for multi-oriented scene text detection
论文链接：https://arxiv.org/pdf/1703.08289.pdf

要解决的问题：

传统的object detection算法比如Faster-RCNN，SSD和YOLO可以应用在horizontal scene texts detection上，而且检测效果也不错，但是难以应用在multi-oriected scene text detection中。其原因主要是因为texts的大小，方向，横纵比等差异较大，本文采用直接回归的方式可以避免将proposal应用在multi-oriented texts带来的困难。

本文算法的结果在ICDAR2015数据集上的F-measure达到0.81。
不过目前还没有公开代码

算法概要:

输入图像大小320*320，经过卷积和降采样的堆叠，另外中间有三次feature融合的过程，类似Resnet的做法，每次融合完都要做反卷积，最后网络得到128*80*80的输出。这个输出一方面作为分类模块的输入，分类模块将会得到输出map，map上每个点代表score，map大小是（1*80*80）；另一方面作为回归模块的输入，回归模块将会得到map，map上每个点代表回归出来的四边形框的四个点坐标的offset（8*80*80），可以简单理解为4个点坐标。最后用一个改进版本的NMS：Recalled NMS做精修，主要解决两个text相离很近时如何既能去除横跨这两个text的错误框，同时保留正确框。本文的一个特点是对ground truth的选取和传统做法不一样，采用和text center line距离在一定范围之内的像素点作为positive，围绕positive有一个过渡区域作为not care区域，再以外才是negative。另外对positive的短边尺寸还做了限制。本文的另一个特点就是直接回归生成预测结果，没有中间的proposal，这是和其它算法很大的不同。

算法详解：

作者在这篇文章给出了两个定义：Indirect Regression和Direct Regression。可以从fig1中看出差别。fig1.a是Indirect Regression，类似Faster-RCNN，SSD等算法都是这种方式，通过回归proposal和ground truth的offset来得到预测结果，黄色虚线表示回归过程。而fig1.b是Direct