【论文阅读】Fused Text Segmentation Network for Multi-oriented Scene Text Detection

最新推荐文章于 2024-08-28 08:19:45 发布

柏树之路

最新推荐文章于 2024-08-28 08:19:45 发布

阅读量2.2k

点赞数

分类专栏：深度学习机器学习

本文链接：https://blog.csdn.net/elwangeij/article/details/78237994

版权

机器学习同时被 2 个专栏收录

6 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

针对多朝向场景文本检测的fused text segmentation networks

摘要

本文我们介绍了一种新的端对端框架，基于instance-aware视角的分割来解决多朝向场景文本检测。我们提出fused text segmentation 网络，该网络在特征提取阶段结合了多层次特征，因为文本instance与通用目标检测相比依赖于更细的特征表达。该网络将检测和分割文本instance联合一起做，利用基于语义分割和region proposal的目标检测任务两者的优点。不包含任何其他的流程，我们的方法成为多朝向场景文本检测（ICDAR2015随机场景文本和MSRA-TD500）的最佳，hmean值分别达到84.1%和82%。这说明了该方法的有效性。

introduction

最近，场景文本检测吸引了很多计算机视觉和机器学习社区的关注。受许多基于内容的图像应用的驱动，比如photo translation 和 receipt content recognition，文本检测已经成为学术界和工业界热门且具有挑战性的研究领域。在自然图像中检测文本是很难的，因为文本和背景在野外都是很复杂的，而且常常会受遮挡和不可控的光照条件所干扰。
之前的文本检测方法[4][6][1][39][15]已经达到较好的结果。文本检测中本质的问题是用区分度高的特征来表示文本区域。传统上，手动设计的特征捕捉文本区域的性质，如纹理和形状。但是在过去几年里，基于深度学习的方法[14][16][15][7][44][22]直接从训练数据中学习hierarchical 特征，在不同的benchmark上如ICDAR系列比赛中获得了更准确更有效的结果。
已有的方法[16][14][15][22]在水平或接近水平的文本检测问题上取得了相当好的效果。然而水平文本检测受轴平行矩形框真值的限制，多朝向文本并不局限于特定的旋转方向并且通常用四边形作标注。因为这种不受限的情况，和水平场景文本检测榜相比，ICDAR15第四个比赛（随机场景文本定位）取得相对较低的准确率。
最近，有一些方法提出来解决多朝向文本检测。总体上来看，可分为四种不同的方法。

Region based: