【论文解读】【文字检测】EAST

最新推荐文章于 2022-04-06 09:45:01 发布

智能血压计

最新推荐文章于 2022-04-06 09:45:01 发布

阅读量531

收藏 5

点赞数 4

分类专栏： OCR 图像识别文字检测文章标签：神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lz867422770/article/details/109342230

版权

图像识别同时被 3 个专栏收录

15 篇文章 1 订阅

订阅专栏

OCR

11 篇文章 3 订阅

订阅专栏

文字检测

11 篇文章 1 订阅

订阅专栏

EAST: An Efficient and Accurate Scene Text Detector

作者：

一、Overview

主要的工作包含三个部分：

- 取消多阶段模型，提出2阶段模型，FCN+NMS

- 支持旋转矩形、四边形；支持词级别、句级别的文字检测

- 提出的算法在精度和速度都达到sota

二、算法介绍

2.1 网络设计

- 要点：大的文本区域需要高级特征；小的文本区域需要低级别的特征

- 借鉴U-net的灵感，使用up-sampling模块来进行特征融合

- 网络架构图图3，主要包含3个部分：特征提取分支、特征融合分支和输出层

-- 特征提取分支：使用ImageNet预训练的卷积网络，提取4个级别的卷积特征，分别为输入图片尺寸的1/32、1/16、1/8、1/4；原图中用的是PVANet

-- 特征融合分支：每层的输出特征，上采样到当前尺寸的二倍，然后与下一输出特征concate；在最后一个特征融合后，传给输出层

-- 输出层：最终的输出层使用一个1*1的卷积层将32通道的特征变成1通道的score map和多通道的geo map（5通道的robx/8通道的QUAD）

2.2 Label 生成

2.2.1 score map的生成

将标注的文本区域收缩，如图4a所示，搜索后所有文本区域内部像素置为1，其余置为0。文本区域收缩的步骤如下：

1）计算一个相对长度ri，计算公式为公式（3），其中D代表l2距离，pi代表四边形四个点中的一个

2）在两个对边中，选出均值较长的一对儿，称为长边，另外两边称为短边

3）长边的两个顶点pi和pi+1，分别收缩0.3*ri 和 0.3*ri+1 的长度

2.2.2 Geometry Map 生成

如上述架构所示，geo map存在两种表现形式，RBOX或者QUAD。

1）RBOX的geo map生成过程如图4（c-e），描述如下：

-- 生成一个旋转矩形来覆盖文本区域，保证生成的旋转矩形面积最小

-- 计算score为正样本的像素到旋转矩形4个边界的距离，做为RBOX的标签，共4通道

2）QUAD的geo map生成方式为：

-- 计算score为正样本的像素到四边形4个顶点的距离，作为QUAD的标签，共8通道

2.3 损失函数

损失函数如公式（4），其中，Ls代表score map的损失，Lg代表geo map的损失，λg=0.1

2.3.1 score map loss：

主要使用平衡交叉熵损失，如公式（5）所示，其中Y^是预测score，Y*是gt。参数β是平衡因子，如公式（6）。

2.3.2 geo map loss:

对了让大的目标和小目标对损失函数具有相同的作用，对RBOX使用IOU-loss，对QUAD使用平滑后的L1loss

1）RBOX

IOU loss的计算公式如公式（7），其中R^为预测的水平矩形，R*为GT的水平矩形

接下来，旋转角度的损失函数计算公式为公式（10）

最终，RBOX的损失函数为二者加和，如公式（11）所示，其中λθ设置为10

2）QUAD

扩展了smoothed-L1损失，如公式（13）所示，其目的是减少长短边对损失的影响。其中，Q^代表预测的文本框四边形的8个坐标{x1, y1, x2, y2, x3, y3, x4, y4}；Q*代表标注内容；代表从所有可能的点对点的计算顺序中找到一个最小的；是最短边长度，用来做归一化

2.4 后处理之Locality-Aware NMS

- 解决问题：传统NMS的计算复杂度：O(n^2)

- 依据原理：相邻像素高度相关

- 方法：

1）逐行合并

2）相同行的像素合并：每个像素的bbox迭代与上一个当前bbox合并，直到完成最后一个相邻像素的合并

3）合并方法：如下图，总的来说，就是按照置信度加权，计算bbox的边界位置，更新置信度

具体算法描述如算法1所示

- 计算复杂度：最优O（n），最差情况O（n^2）

3 实验效果

3.1 三种basenet

1）VGG16

- 支持finetuning，应用广泛

- 感受野小，conv5_3的感受野为196

- 网络参数多

2）PVANET

- 小、轻量级

- PVANET 2x是原始PVANET的输出通道数量的两倍

- 感受野为809

3.2 三个数据集

1）IC5

2）COCO-Text

3）TD-500

3.3 速度

4 局限

1）检测器能够处理的最大文本实例与网络感受野有关系，因此对长文本不友好（这个局限可以通过FPN的引入解决了）

2）竖向文本预测不友好

5 Future work

1）调整geo map，适配弯曲文本

2）集成一个文本识别器

3）将思想拓展到通用目标检测

智能血压计

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
【论文解读】【文字检测】EAST

EAST: An Efficient and Accurate Scene Text Detector作者：一、Overview主要的工作包含三个部分：- 取消多阶段模型，提出2阶段模型，FCN+NMS- 支持旋转矩形、四边形；支持词级别、句级别的文字检测- 提出的算法在精度和速度都达到sota二、算法介绍2.1 网络设计- 要点：大的文本区域需要高级特征；小的文本区域需要低级别的特征- 借鉴U-net的灵感，使用up-sampling模块来进行特征融合...
复制链接

扫一扫

专栏目录

智能血压计 CSDN认证博客专家 CSDN认证企业博客

码龄10年

暂无认证

45: 原创

3万+: 周排名

220万+: 总排名

13万+: 访问

: 等级

1556: 积分

4214: 粉丝

227: 获赞

49: 评论

688: 收藏

私信

关注

分类专栏

最新评论

有关skmultilearn.ensemble导入失败的问题
x534w756f: 请问博主这个包里的算法可以求出yred，根据yred与ytrue可以算出hamming loss ，但多标签不是还有one error ,coverage这些评价指标，这些该咋求啊？
非极大值抑制(nms)算法详解[python]
刚刚好711: 大佬能给个softer-nms的github链接吗
非极大值抑制(nms)算法详解[python]
m0_52760851: 大佬，你的Softer-NMS的相关解析后续咋没找到啊
设计一个随机算法，将一个整数M分成N个整数要求每个都在区间【minV, maxV】之间
jackC33: 我也写了一个，发表出来想搜搜自己的，看到博主的真是血压飙升啊，我用了50多行代码
范数简单理解
妹岛: 好清晰，终于明白点，太感谢了

最新文章

2021年1篇

2020年23篇

2019年9篇

2018年18篇

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值