目标检测之模型篇（4）【EAST】

最新推荐文章于 2024-05-29 22:15:10 发布

Lilith_99

最新推荐文章于 2024-05-29 22:15:10 发布

阅读量8.6k

点赞数 1

分类专栏：目标检测模型深度学习

本文链接：https://blog.csdn.net/weixin_38708130/article/details/83789457

版权

文章目录

1. 前言
2. 实现
3. 结果
4. 总结
5. 参考资料

1. 前言

这篇文章是我最早读的模型类文章，但是当时还没萌生出写博客复习总结的想法。还好这个想法出现的不晚，现在是第四篇模型类文章，刚好拿来复习一下。当时读的时候就觉得作者字里行间充满了自信（可能是因为EAST模型的效果真的很好吧），EAST这名字又有种东方的神秘气息（误），话不多说，还是开始介绍吧。
EAST全名an Efficient and Accuracy Scene Text detection pipeline，高效、准确的场景文本识别管道（不得不说这缩写真的好中二啊）。该Pipeline直接预测图像中任意方向和矩形形状的文本或文本行，通过单个神经网络消除不必要的中间步骤（例如候选聚合和单词分割）。
三个贡献：

提出了一个由两阶段组成的场景文本检测方法：FCN阶段和NMS阶段。FCN直接生成文本区域，不包括冗余和耗时的中间步骤。
该pipeline可灵活生成wordlevel或line level预测，其几何形状可为旋转框或矩形。
所提出的算法在准确性和速度上明显优于最先进的方法。

常规的文本检测Pipeline都含有很多中间步骤，而这些中间步骤会导致误差的累积，性能次优，且处理时间较长。本文提出的方法，只有FCN和NMS两个中间步骤，放弃了不必要的中间组件和步骤，并允许进行端到端的训练和优化。由此产生的框架是轻量级的单个神经网络，在性能和速度上都明显优于所有以前的方法。

2. 实现

该算法的关键部分是一个神经网络模型，该模型通过训练直接预测图形中的文本实例及其几何形状的存在。该模型是一种完全卷积神经网络，适用于文本检测，输出密集的每像素的词或文本行。这就消除了中间步骤如候选人提议,文本区域形成和分区。后处理步骤仅包括阈值化和预测几何形状的NMS。由于该检测器是一种高效、准确的场景文本检测管道，故将其命名EAST。

2.1 Pipeline

图像被送到FCN中并且生成像素级的文本分数特征图和几何图形特征图的多个通道。其中一个预测通道是分数特征图，其像素值范围是[0,1]。剩下的通道表示从每个像素视图中包含单词的几何图形。分数代表在同一位置预测的几何形状的置信度。
两种文本区域的几何形状：旋转框（RBOX）和矩形（QUAD）。

2.2 网络设计

在这里插入图片描述

特征提取层：先用通用网络如VGG16,Pvanet,Resnet等作为基础网络（文中用的是Pvanet），用于特征提取。抽取不同大小的Feature map(输出图像的 $\frac{1}{32},\frac{1}{16},\frac{1}{8},\frac{1}{4}$

最低0.47元/天解锁文章

Lilith_99

关注

1
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
目标检测之模型篇（4）【EAST】

文章目录1. 前言2. 实现3. 结果4. 总结5. 参考资料1. 前言这篇文章是我最早读的模型类文章，但是当时还没萌生出写博客复习总结的想法。还好这个想法出现的不晚，现在是第四篇模型类文章，刚好拿来复习一下。当时读的时候就觉得作者字里行间充满了自信（可能是因为EAST模型的效果真的很好吧），EAST这名字又有种东方的神秘气息（误），话不多说，还是开始介绍吧。EAST全名an Efficie...
复制链接

扫一扫