【论文阅读】Fused Text Segmentation Network for Multi-oriented Scene Text Detection

本文介绍了一种新的端对端框架fusedtextsegmentationnetworks,用于解决多朝向场景文本检测问题。该方法结合多层次特征,实现了检测与分割文本实例的联合处理,无需额外流程。实验表明,在ICDAR2015随机场景文本和MSRA-TD500数据集上,该方法取得了最佳性能。
摘要由CSDN通过智能技术生成

针对多朝向场景文本检测的fused text segmentation networks

摘要

本文我们介绍了一种新的端对端框架,基于instance-aware视角的分割来解决多朝向场景文本检测。我们提出fused text segmentation 网络,该网络在特征提取阶段结合了多层次特征,因为文本instance与通用目标检测相比依赖于更细的特征表达。该网络将检测和分割文本instance联合一起做,利用基于语义分割和region proposal的目标检测任务两者的优点。不包含任何其他的流程,我们的方法成为多朝向场景文本检测(ICDAR2015随机场景文本和MSRA-TD500)的最佳,hmean值分别达到84.1%和82%。这说明了该方法的有效性。

introduction

最近,场景文本检测吸引了很多计算机视觉和机器学习社区的关注。受许多基于内容的图像应用的驱动,比如photo translation 和 receipt content recognition,文本检测已经成为学术界和工业界热门且具有挑战性的研究领域。在自然图像中检测文本是很难的,因为文本和背景在野外都是很复杂的,而且常常会受遮挡和不可控的光照条件所干扰。
之前的文本检测方法[4][6][1][39][15]已经达到较好的结果。文本检测中本质的问题是用区分度高的特征来表示文本区域。传统上,手动设计的特征捕捉文本区域的性质,如纹理和形状。但是在过去几年里,基于深度学习的方法[14][16][15][7][44][22]直接从训练数据中学习hierarchical 特征,在不同的benchmark上如ICDAR系列比赛中获得了更准确更有效的结果。
已有的方法[16][14][15][22]在水平或接近水平的文本检测问题上取得了相当好的效果。然而水平文本检测受轴平行矩形框真值的限制,多朝向文本并不局限于特定的旋转方向并且通常用四边形作标注。因为这种不受限的情况,和水平场景文本检测榜相比,ICDAR15第四个比赛(随机场景文本定位)取得相对较低的准确率。
最近,有一些方法提出来解决多朝向文本检测。总体上来看,可分为四种不同的方法。

  • Region based:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值