PSENet笔记

最新推荐文章于 2024-02-02 18:27:47 发布

张欣-男

最新推荐文章于 2024-02-02 18:27:47 发布

阅读量195

点赞数

分类专栏： OCR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sdlypyzq/article/details/107912810

版权

OCR 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

0 摘要

现在的文本检测算法有两个挑战：
（1）可以很好的检测四边形，但是对任意形状不好使。
（2）文本区域太近，导致误检。

基于分割的方法可以解决第一个问题，但是对第二个问题却无能为力。PSENet可以很好检测任意形状，psenet生成不同尺度的kernel，逐步扩展小尺度kernel直到覆盖整个文本形状。小的kernel之间有更大的几何间隔，因为对于邻近的文本区域非常有效。

1 介绍

基于CNN的文本检测方法粗分为两类：基于检测的方法和基于分割的方法。
基于回归的方法可以检测带方向的矩形或者四边形，但是不能处理任意四边形。
基于分割的方法很难将很近的文本区域分开。

PSENet 的方法：

进行像素级别的分割。
逐步进行尺度扩张算法。每个文本区域分配多个分割区域，我们用kernel表示。每个kernel有着和文本区域一样的形状，但是尺度不同。
为获得最终的检测结果，我们采用基于BFS的逐步尺度扩张算法。（1）从最小尺度kernel开始；（2）通过更大的kernel扩张它们的区域；（3）直至找到整个文本区域结束。

使用PSENet有三个潜在原因：

小尺度kernel更容易将他们分开。
小尺度kernel不能覆盖整个文本区域。
逐步尺度扩张算法是一种简单高效的方法。

2 相关工作

2.1 基于回归的方法 regression-based methods

大部分基于回归的方法存在的问题：

需要复杂的anchor的设计
笨重的多阶段。
不能处理弯曲文本（curve texts）。

2.2 基于分割的方法 segmentation-based methods

过去基于分割的方法很少关注任意形状的文本。TextSnake可以检测任意形状，但是非常耗时，并且有复杂的后处理。

3 方法

在这里插入图片描述

3.1 整体流程

使用ResNet作为骨干网络。

3.2 网络设计

3.3 尺度扩张算法

3.4 label 生成

参考

PSENet原理介绍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张欣-男 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。