文字检测算法——EAST阅读笔记

13 篇文章 6 订阅
10 篇文章 2 订阅

多种文本检测算法性能对比及算法介绍
(https://blog.csdn.net/qq_39707285/article/details/108754444)


论文题目:EAST: An Efficient and Accurate Scene Text Detector
DATA:2017年7月10日

Abstract

之前的文字检测算法在处理较难的场景时往往会出错,即使是使用了深度学习算法的也表现的不好,因为这些算法由多个步骤组成,不仅耗时,表现还不好。本文提出了一个简单的能够快速准确定位场景文字的算法,改算法直接预测任意形状或矩形word或者行文本。在 ICDAR 2015, COCO-Text and MSRA-TD500数据集上都领先于之前的算法,在ICDAR 2015数据集上,该算法在720p的图片上以13.2fps的速度得到了0.7820的F-score。
在这里插入图片描述

Introduction

该算法有三大贡献:

  1. 该算法有两部分组成,第一部分是全卷机网络,直接预测文本区域,另一部分是NMS合并,把检测的结果通过nms合并成最终结果
  2. 改算法无论是单词还是行文本都可以预测,形状可以是旋转的boxes or quadrangles
  3. 无论在速度还是精度上都领先于之前的算法

Related Work

之前的算法大部分由多步组成,例如去除假阳、候选聚合、线和行的组成等,如图2(a-d)所示。这些方法需要不断的进行微调,导致效果一般,并且处理时间增加。
在这里插入图片描述

Methodology

该模型直接利用全卷机神经网络输出密集的像素级别detection来预测文本,省去了候选方案、文本区域形成和单词划分等交互步骤,预处理步骤仅包括阈值设置和nms。把改算法称之为EAST,since it is an Efficient and Accuracy Scene Text detection pipeline。

Pipeline

FCN的第一个输出通道是score map,每个score值限定在[0,1],其余的通道代表从每个像素的视图中包围该单词的几何形状,这个分数代表在同一地点预测的几何形状的置信度。
检测不同文本形状有两种形式, rotated box (RBOX) and quadrangle (QUAD),使用了不同loss函数,每一个预测结果大于某个阈值的进入下一步nms处理,nms处理结果作为最终的输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值