目标检测之模型篇(4)【EAST】

1. 前言

这篇文章是我最早读的模型类文章,但是当时还没萌生出写博客复习总结的想法。还好这个想法出现的不晚,现在是第四篇模型类文章,刚好拿来复习一下。当时读的时候就觉得作者字里行间充满了自信(可能是因为EAST模型的效果真的很好吧),EAST这名字又有种东方的神秘气息(误),话不多说,还是开始介绍吧。
EAST全名an Efficient and Accuracy Scene Text detection pipeline,高效、准确的场景文本识别管道(不得不说这缩写真的好中二啊)。该Pipeline直接预测图像中任意方向和矩形形状的文本或文本行,通过单个神经网络消除不必要的中间步骤(例如候选聚合和单词分割)。
三个贡献:

  • 提出了一个由两阶段组成的场景文本检测方法:FCN阶段NMS阶段。FCN直接生成文本区域,不包括冗余和耗时的中间步骤。
  • 该pipeline可灵活生成wordlevel或line level预测,其几何形状可为旋转框或矩形。
  • 所提出的算法在准确性和速度上明显优于最先进的方法。
    在这里插入图片描述
    常规的文本检测Pipeline都含有很多中间步骤,而这些中间步骤会导致误差的累积,性能次优,且处理时间较长。本文提出的方法,只有FCN和NMS两个中间步骤,放弃了不必要的中间组件和步骤,并允许进行端到端的训练和优化。由此产生的框架是轻量级的单个神经网络,在性能和速度上都明显优于所有以前的方法。

2. 实现

该算法的关键部分是一个神经网络模型,该模型通过训练直接预测图形中的文本实例及其几何形状的存在。该模型是一种完全卷积神经网络,适用于文本检测,输出密集的每像素的词或文本行。这就消除了中间步骤如候选人提议,文本区域形成和分区。后处理步骤仅包括阈值化和预测几何形状的NMS。由于该检测器是一种高效、准确的场景文本检测管道,故将其命名EAST。

2.1 Pipeline

图像被送到FCN中并且生成像素级的文本分数特征图和几何图形特征图的多个通道。其中一个预测通道是分数特征图,其像素值范围是[0,1]。剩下的通道表示从每个像素视图中包含单词的几何图形。分数代表在同一位置预测的几何形状的置信度。
两种文本区域的几何形状:旋转框(RBOX)矩形(QUAD)

2.2 网络设计

在这里插入图片描述

  • 特征提取层:先用通用网络如VGG16,Pvanet,Resnet等作为基础网络(文中用的是Pvanet),用于特征提取。抽取不同大小的Feature map(输出图像的 1 32 , 1 16 , 1 8 , 1 4 \frac{1}{32},\frac{1}{16},\frac{1}{8},\frac{1}{4} 321,
  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值