OCR检测方法（一）——TextBoxes与TextBoxes++算法详解

最新推荐文章于 2024-04-10 09:47:44 发布

农夫山泉2号

最新推荐文章于 2024-04-10 09:47:44 发布

阅读量2.4k

点赞数

分类专栏： PYTHON 深度学习 ocr 文章标签：文本检测 OCR textboxes textboxes++

PYTHON 同时被 3 个专栏收录

105 篇文章 4 订阅

订阅专栏

深度学习

84 篇文章 6 订阅

订阅专栏

ocr

44 篇文章 6 订阅

订阅专栏

转载自：TextBoxes与TextBoxes++算法详解
尊重原创，请看原文

文章目录

TextBoxes
- 一、网络结构
- 二、损失函数的定义
TextBoxes++
自己的总结

TextBoxes

《TextBoxes: A Fast Text Detector with a Single Deep Neural Network
》发表于AAAI2017
github地址：https://github.com/MhLiao/TextBoxes

这篇文章是借鉴SSD的网络用于文字检测，创新也不是太大。还有一点要清楚的是作者设计该网络的时候是将该网络作为word-based这一类来做的，就是说该算法设计初衷是针对词分割的，这里说的词应该是对于英文来说的。

一、网络结构

网络结构如下图所示，该网络结构就是将SSD中的全连接去掉换成卷积，并且为了适应文字检测的任务（考虑到文字的长宽比不同于物体，可能长宽比较大）使用15的卷积核代替33的卷积核。还有default boxes的比例也不同于SSD，采用1、2、3、5、7、10几种。得到的default boxes后使用SSD一样的回归方式回归出可能的结果。
在这里插入图片描述

还有一个不同于SSD的地方，因为文中采用了不一样尺寸的default boxes，这些尺寸都是细长形的，这样可能导致default boxes在水平方向密集在垂直方向上稀疏，从而导致检测不准确。为了解决上述问题，文中给每个default box加上垂直偏移，如下图所示。下图中为了便于观看只显示了宽高比为1和5的default box，其余比例的box以此类推。图中黑色框（宽高比为5的框）和蓝色框（宽高比为1的框）是中心在cell中心的default box，绿色（宽高比为5的框）和红色（宽高比为1的框）的框中心位于cell中心加上cell一半高的位置。
在这里插入图片描述

二、损失函数的定义

在这里插入图片描述

TextBoxes++

《TextBoxes++: A Single-Shot Oriented Scene Text
Detector》发表于AAAI2018
github地址：https://github.com/MhLiao/TextBoxes_plusplus

从名字就可以看出，该文章是上面TextBoxes的一个扩展，扩展在TextBoxes只可以检测水平文本，而TextBoxes++可以检测多角度的文本，但该方法也是基于SSD结构且是针对词来检测的（word-based）。

一、网络结构

不同于TextBoxes，为了更好的对多角度文本进行检测，文章做了三个改动，一是改了default box的宽高比，使用1、2、3、5、1/2、1/3、1/5;二是将15的卷积核改为35用来生成text box layers，三是网络的输出不同（这点会在ground truth中介绍）。框架与TextBoxes是一样的，如下图所示。
在这里插入图片描述

类似于TextBoxes，因为使用的是细长形的default boxes，这样可能导致default boxes在水平方向密集在垂直方向上稀疏，从而导致检测不准确。为了解决上述问题，文中给每个default box加上垂直偏移，如下图所示。
在这里插入图片描述

二、网络的输出及ground truth的表示

网络输出
网络的输出是为了适应多角度的文本而相对于SSD和TextBoxes做了一些更改。网络输出一系列的多角度文本框使用{q}或者{r}集合表示，同时输出对应与多角度文本框的最小外界水平矩形框使用{b}集合表示。

多角度文本框是通过default box回归得到的，如下图表示，图中绿色虚线表示与ground truth匹配的default box，黄色框表示ground truth，红色箭头表示回归的方向，黑色框表示未匹配到真值的default box，绿色实线框表示对应与ground truth的最小外界水平矩形框。
在这里插入图片描述

ground truth的表示