Shape Robust Text Detection with Progressive Scale Expansion Network

PSENet是为了解决场景文字检测中的形状复杂性和紧密排列问题而提出的一种方法。它采用基于分割的策略,通过渐进尺度展开算法逐步融合不同尺度的分割结果,从而更准确地检测任意形状的文本行。论文和代码已公开,提供了从最小尺度到原始尺度的多阶段分割标签生成和相应的网络损失函数设计。
摘要由CSDN通过智能技术生成

Shape Robust Text Detection with Progressive Scale Expansion Network

论文地址:https://arxiv.org/abs/1806.02559
代码地址:https://github.com/whai362/PSENet

文章主要针对的问题

场景文字检测面临两个问题:

  1. 大部分的state-of-art 的算法都是预测四边形的检测框来表示文本框,但是这种方式在任意形状的文本行检测问题上的效果较差。
  2. 距离较近的文本行容易检测错误,检测结果容易相互有重叠或者多个文本行因为没有分开而被检测为一个。

基于CNN的场景文字检测算法主要可以分为两类:

  1. regression-based approaches(基于回归的方法)
    基于回归的方法使用CNN回归问本行的边界框,这种方法一般应用在文本行可以用具有一定方向的矩形或四边形的形式表示的情况下,比如水平文本行。在任意方向的场景文字检测问题上,因为文本行形状多变,四边形并不能有效地表示一串文本行,所依据与回归的方法在locate the texts with arbitrary shape 问题上效果不佳。
  2. segmentation-based approaches(基于分割的方法)
    基于分割的方法把文本行检测看做像素点分类问题,即通过设计CNN网络分割出文本和非文本像素点,但是没直接的分割方法很难分开相近的文本行,于是在输出检测结果的时候会把多个粘连的文本行预测为一个。
    已有的方法在检测任意形状的问本行时遇到的问题。

PSENet网络结构

PSENet主要框架如图:
PSENet
整体架构: 特征提取阶段采用的骨干网络为ResNet,并将低层和高层的特征进行相连(FPN网络结构),将FPN的最后四层特征 P 2 , P 3 , P 4 , P 5 P_2,P_3,P_4,P_5 P2,P3,P4,P5 融合为一个特征层 F F F,然后将 F F F再次映射到 n n n个分割结果: S 1 , S 2 , . . . , S n S_1,S_2,...,S_n S1,S2,...,Sn。每一个 S i S_i Si都表示在某一个尺度上的文本行像素分割结果。 S 1 S_1 S1表示一个文本行(字符串)的最小尺度的分割图(原始的文本行mask图向里收缩一定比例后的mask), S n S_n Sn表示文本行(字符串)原始的分割图。得到这些分割图后,采用 P S E PSE PSE(Progressive Scale Expansion Algorithm) 从 S 1 S_1 S1 S n S_n Sn逐步融合CNN生成的分割图像,从而得到最终的检测结果:
R = P S E { S 1 , S 2 , . . . , S n } R = PSE \{S_1,S_2,...,S_n\} R=PSE{ S1,S2,...,Sn}

具体细节: 四个特征层 P 2 , P 3 , P 4 , P 5 P_2,P_3,P_4,P_5 P2,P

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值