【论文解读】【文字检测】EAST

11 篇文章 3 订阅
11 篇文章 1 订阅

 

EAST: An Efficient and Accurate Scene Text Detector

作者:

一、Overview

主要的工作包含三个部分:

- 取消多阶段模型,提出2阶段模型,FCN+NMS

- 支持旋转矩形、四边形;支持词级别、句级别的文字检测

- 提出的算法在精度和速度都达到sota

二、算法介绍

2.1 网络设计

- 要点:大的文本区域需要高级特征;小的文本区域需要低级别的特征

- 借鉴U-net的灵感 ,使用up-sampling模块来进行特征融合

- 网络架构图图3,主要包含3个部分:特征提取分支、特征融合分支和输出层

    -- 特征提取分支:使用ImageNet预训练的卷积网络,提取4个级别的卷积特征,分别为输入图片尺寸的1/32、1/16、1/8、1/4;原图中用的是PVANet

    -- 特征融合分支:每层的输出特征,上采样到当前尺寸的二倍,然后与下一输出特征concate;在最后一个特征融合后,传给输出层

    -- 输出层:最终的输出层使用一个1*1的卷积层将32通道的特征变成1通道的score map和多通道的geo map(5通道的robx/8通道的QUAD)

2.2 Label 生成

2.2.1 score map的生成

将标注的文本区域收缩,如图4a所示,搜索后所有文本区域内部像素置为1,其余置为0。文本区域收缩的步骤如下:

1)计算一个相对长度ri,计算公式为公式(3),其中D代表l2距离,pi代表四边形四个点中的一个

2)在两个对边中,选出均值较长的一对儿,称为长边,另外两边称为短边

3)长边的两个顶点pi和pi+1,分别收缩0.3*ri 和 0.3*ri+1 的长度

2.2.2 Geometry Map 生成

如上述架构所示,geo map存在两种表现形式,RBOX或者QUAD。

1)RBOX的geo map生成过程如图4(c-e),描述如下:

    -- 生成一个旋转矩形来覆盖文本区域,保证生成的旋转矩形面积最小

    -- 计算score为正样本的像素到旋转矩形4个边界的距离,做为RBOX的标签,共4通道

2)QUAD的geo map生成方式为:

    -- 计算score为正样本的像素到四边形4个顶点的距离,作为QUAD的标签,共8通道

2.3 损失函数

损失函数如公式(4),其中,Ls代表score map的损失,Lg代表geo map的损失,λg=0.1

2.3.1 score map loss:

主要使用平衡交叉熵损失,如公式(5)所示,其中Y^是预测score,Y*是gt。参数β是平衡因子,如公式(6)。

 

2.3.2 geo map loss:

对了让大的目标和小目标对损失函数具有相同的作用,对RBOX使用IOU-loss,对QUAD使用平滑后的L1loss

1)RBOX

IOU loss的计算公式如公式(7),其中R^为预测的水平矩形,R*为GT的水平矩形

接下来,旋转角度的损失函数计算公式为公式(10)

最终,RBOX的损失函数为二者加和,如公式(11)所示,其中λθ设置为10

2)QUAD

扩展了smoothed-L1损失,如公式(13)所示,其目的是减少长短边对损失的影响。其中,Q^代表预测的文本框四边形的8个坐标{x1, y1, x2, y2, x3, y3, x4, y4};Q*代表标注内容;代表从所有可能的点对点的计算顺序中找到一个最小的;是最短边长度,用来做归一化

2.4 后处理之Locality-Aware NMS

- 解决问题:传统NMS的计算复杂度:O(n^2)

- 依据原理:相邻像素高度相关

- 方法:

1)逐行合并

2)相同行的像素合并:每个像素的bbox迭代与上一个当前bbox合并,直到完成最后一个相邻像素的合并

3)合并方法:如下图,总的来说,就是按照置信度加权,计算bbox的边界位置,更新置信度

具体算法描述如算法1所示

- 计算复杂度:最优O(n),最差情况O(n^2)

3 实验效果

3.1 三种basenet

1)VGG16

- 支持finetuning,应用广泛

- 感受野小,conv5_3的感受野为196

- 网络参数多

2)PVANET

- 小、轻量级

- PVANET 2x是原始PVANET的输出通道数量的两倍

- 感受野为809

3.2 三个数据集

1)IC5

2)COCO-Text

3)TD-500

3.3 速度

4 局限

1)检测器能够处理的最大文本实例与网络感受野有关系,因此对长文本不友好(这个局限可以通过FPN的引入解决了)

2)竖向文本预测不友好

5 Future work

1)调整geo map,适配弯曲文本

2)集成一个文本识别器

3)将思想拓展到通用目标检测

 

 

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值