《TextBoxes++: A Single-Shot Oriented Scene Text Detector》论文笔记

最新推荐文章于 2024-08-12 14:50:42 发布

m_buddy

最新推荐文章于 2024-08-12 14:50:42 发布

阅读量1.9k

点赞数 1

分类专栏： # General Object Detection 文章标签： TextBoxes++

本文链接：https://blog.csdn.net/m_buddy/article/details/89421191

版权

TextBoxes++是一种改进的SSD模型，用于高效检测倾斜文本，采用旋转矩形和四边形框表示文本。文章介绍了模型结构、边界框表达与回归策略，以及如何利用识别信息优化检测结果。在ICDAR 2015和COCO文本数据集上，TextBoxes++展示了优秀的检测速度和精度。

摘要由CSDN通过智能技术生成

1. 概述

这篇文章给出的方法是为了解决旋转文本检测的问题，因而文章的方法TextBoxes++是能够检测倾斜文本的，该方法检测文本是通过带角度的矩形框或是四边形框来表示的。由于该方法是源自于SSD的，因而这个网络是直通的，并不是类似Faster R-CNN的谅解网络，自然速度就很快了，作者在分辨率为 $1024 * 1024$ 分辨率的ICDAR 2015数据集上测得11.6FPS且F-Measure=0.817，在 $768 * 768$ 的COCO文本数据集上测得19.8FPS且F-Measure=0.5591。

在这之前论文的作者还出了版本叫做TextBoxes，论文的方法相比之前的TextBoxes具有的4点改进：

1）原本的TextBoxes支持水平方向的检测，现在支持检测有角度的文本了；
2）优化网络结构和训练流程，这使得性能进一步提升；
3）为了说明Textboxes++具有更好自然场景下任意角度文本检测的性能，做了更多的对比试验；
4）将检测与识别的信息整合来优化文本检测与字符识别；

SSD与TextBoxes++的关系：
TextBoxes++源自于SSD，SSD在检测一些极端长宽比例的文本的时候表现并不好，而在TextBoxes++中使用专门设计过的文件textbox layer去解决了这个问题，因而相比SSD在检测性能上有了进一步提升。
SSD只能产生水平方向的候选框，而TextBoxes++可以产生有旋转角度的矩形文本检测框或是一般四边形检测框去适应带有旋转的文本。

回归的基本思想：
其实TextBoxes++在与GT框进行匹配的时候还是使用的矩形框，anchor形成的候选框与包围GT的水平矩形框及四边形框进行回归，这样带来的好处就是优化的策略简单，对于每个区域产生的候选也少。

文章的主要贡献：