文字检测算法——EAST阅读笔记

最新推荐文章于 2024-04-22 21:36:03 发布

Mr.小梅

最新推荐文章于 2024-04-22 21:36:03 发布

阅读量711

点赞数

分类专栏：文本检测目标检测 OCR 文章标签：深度学习人工智能计算机视觉算法神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39707285/article/details/103726171

版权

目标检测同时被 3 个专栏收录

26 篇文章 5 订阅

订阅专栏

13 篇文章 6 订阅

订阅专栏

10 篇文章 2 订阅

订阅专栏

多种文本检测算法性能对比及算法介绍
(https://blog.csdn.net/qq_39707285/article/details/108754444)

论文题目：EAST: An Efficient and Accurate Scene Text Detector
DATA:2017年7月10日

Abstract

之前的文字检测算法在处理较难的场景时往往会出错，即使是使用了深度学习算法的也表现的不好，因为这些算法由多个步骤组成，不仅耗时，表现还不好。本文提出了一个简单的能够快速准确定位场景文字的算法，改算法直接预测任意形状或矩形word或者行文本。在 ICDAR 2015, COCO-Text and MSRA-TD500数据集上都领先于之前的算法，在ICDAR 2015数据集上，该算法在720p的图片上以13.2fps的速度得到了0.7820的F-score。
在这里插入图片描述

Introduction

该算法有三大贡献：

该算法有两部分组成，第一部分是全卷机网络，直接预测文本区域，另一部分是NMS合并，把检测的结果通过nms合并成最终结果
改算法无论是单词还是行文本都可以预测，形状可以是旋转的boxes or quadrangles
无论在速度还是精度上都领先于之前的算法

Related Work

之前的算法大部分由多步组成，例如去除假阳、候选聚合、线和行的组成等，如图2(a-d)所示。这些方法需要不断的进行微调，导致效果一般，并且处理时间增加。
在这里插入图片描述

Methodology

该模型直接利用全卷机神经网络输出密集的像素级别detection来预测文本，省去了候选方案、文本区域形成和单词划分等交互步骤，预处理步骤仅包括阈值设置和nms。把改算法称之为EAST，since it is an Efficient and Accuracy Scene Text detection pipeline。

Pipeline

FCN的第一个输出通道是score map，每个score值限定在[0,1]，其余的通道代表从每个像素的视图中包围该单词的几何形状，这个分数代表在同一地点预测的几何形状的置信度。
检测不同文本形状有两种形式， rotated box (RBOX) and quadrangle (QUAD)，使用了不同loss函数，每一个预测结果大于某个阈值的进入下一步nms处理，nms处理结果作为最终的输出。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。