Shape Robust Text Detection with Progressive Scale Expansion Network

最新推荐文章于 2022-07-08 15:38:28 发布

加油_加油_DrDu

最新推荐文章于 2022-07-08 15:38:28 发布

阅读量746

点赞数 1

分类专栏：场景文字检测文章标签：场景文字检测任意方向文字检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19655645/article/details/88949796

版权

PSENet是为了解决场景文字检测中的形状复杂性和紧密排列问题而提出的一种方法。它采用基于分割的策略，通过渐进尺度展开算法逐步融合不同尺度的分割结果，从而更准确地检测任意形状的文本行。论文和代码已公开，提供了从最小尺度到原始尺度的多阶段分割标签生成和相应的网络损失函数设计。

摘要由CSDN通过智能技术生成

PSENet

Shape Robust Text Detection with Progressive Scale Expansion Network

Shape Robust Text Detection with Progressive Scale Expansion Network

论文地址：https://arxiv.org/abs/1806.02559
代码地址：https://github.com/whai362/PSENet

文章主要针对的问题

场景文字检测面临两个问题：

大部分的state-of-art 的算法都是预测四边形的检测框来表示文本框，但是这种方式在任意形状的文本行检测问题上的效果较差。
距离较近的文本行容易检测错误，检测结果容易相互有重叠或者多个文本行因为没有分开而被检测为一个。

基于CNN的场景文字检测算法主要可以分为两类：

regression-based approaches（基于回归的方法）
基于回归的方法使用CNN回归问本行的边界框，这种方法一般应用在文本行可以用具有一定方向的矩形或四边形的形式表示的情况下，比如水平文本行。在任意方向的场景文字检测问题上，因为文本行形状多变，四边形并不能有效地表示一串文本行，所依据与回归的方法在locate the texts with arbitrary shape 问题上效果不佳。
segmentation-based approaches（基于分割的方法）
基于分割的方法把文本行检测看做像素点分类问题，即通过设计CNN网络分割出文本和非文本像素点，但是没直接的分割方法很难分开相近的文本行，于是在输出检测结果的时候会把多个粘连的文本行预测为一个。

PSENet网络结构

PSENet主要框架如图：
PSENet
整体架构： 特征提取阶段采用的骨干网络为ResNet，并将低层和高层的特征进行相连（FPN网络结构），将FPN的最后四层特征 $P_2,P_3,P_4,P_5$ 融合为一个特征层 $F$ ，然后将 $F$ 再次映射到 $n$ 个分割结果： $S_1,S_2,...,S_n$ 。每一个 $S_i$ 都表示在某一个尺度上的文本行像素分割结果。 $S_1$ 表示一个文本行（字符串）的最小尺度的分割图（原始的文本行mask图向里收缩一定比例后的mask）， $S_n$ 表示文本行（字符串）原始的分割图。得到这些分割图后，采用 $P S E$ (Progressive Scale Expansion Algorithm) 从 $S_1$ 到 $S_n$ 逐步融合CNN生成的分割图像，从而得到最终的检测结果：
$R = PSE \{S_1,S_2,...,S_n\}$

具体细节： 四个特征层 $P_2,P_3,P_4,P_5$

最低0.47元/天解锁文章

加油_加油_DrDu

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。