【论文笔记】Deep Direct Regression for Multi-Oriented Scene Text Detection

最新推荐文章于 2020-08-03 20:20:59 发布

牧小兔

最新推荐文章于 2020-08-03 20:20:59 发布

阅读量1.5k

点赞数

分类专栏：文字检测文章标签： text detection 多方向

本文链接：https://blog.csdn.net/rabbithui/article/details/79034125

版权

本文提出了一种基于直接回归的多方向场景文本检测算法，包括特征提取、特征融合、多任务学习和后处理四个部分。网络结构通过多层卷积获取大感受野特征，Groundtruth和Loss函数用于指导学习，Recalled NMS后处理方法解决了结果冗余问题。实验在ICDAR2013、ICDAR2015和MSRA-TD500数据集上进行。

摘要由CSDN通过智能技术生成

文献： Wenhao He, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu. Deep Direct Regression for Multi-Oriented Scene Text Detection[J]. arXiv preprint arXiv:1703.08289v1.

　　本文将目前的检测方法归类为以下两种：直接回归和间接回归。间接回归指通过预测bounding box proposals的offsets进行的检测方法，如faster-rcnn，ssd等；直接回归指通过一个给定的点预测它的offsets得到边界的检测方法。本文提出了一种基于直接回归的自然场景下的多方向文本检测算法。

-网络结构
-Groundtruth和Loss函数
-Post Processing
-实验设置

　　本文的检测系统如下图所示，主要包括四个部分：特征提取，特征融合，多任务学习以及后处理。

1. 网络结构

　　检测系统的前三个部分组成了文章的网络结构。
1）特征提取：在多个卷积层进行特征提取，增加了最大感受野的范围。确保回归任务可以检测出更长的文本，同时提高边界预测的准确度。
2）特征融合：从多个尺度的feature map上提取特征，再进行融合。为了减少计算量，文章仅将融合特征map上采样至原图像尺寸的1/4，具体见下图所示（在原论文图基础上做了尺寸的标注）。
3）多任务学习：主要有两个任务的学习，分类任务和回归任务。分类任务的输出 $M_{cls}$ 是一个大小为 $\frac{S}{4}\times\frac{S}{4}$ 的2维张量，用来预测是否为文本，张量内的元素分数越高是文本的可能性就越大；回归任务的输出 $M_{loc}$ 是一个大小为 $\frac{S}{4}\times\frac{S}{4}\times8$ 的3维张量， $M_{loc}$ 中位置 $(w,h,c)$ 的值 $L_{(w,h,c)}$ 表示原始图像中点 $(4w,4h)$ 到文本bounding box的4个顶点的offsets。所以，四边形 B(w,h

最低0.47元/天解锁文章

牧小兔

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Deep Direct Regression for Multi-Oriented Scene Text Detection

文献： Wenhao He, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu. Deep Direct Regression for Multi-Oriented Scene Text Detection[J]. arXiv preprint arXiv:1703.08289v1.　　本文将目前的检测方法归类为以下两种：直接回归和间接回归。间接回归指通过预测bound
复制链接

扫一扫