PSENET——OCR文本检测论文阅读

最新推荐文章于 2024-08-10 08:45:19 发布

农夫山泉2号

最新推荐文章于 2024-08-10 08:45:19 发布

阅读量3.6k

点赞数

分类专栏： ocr 文章标签： psenet ocr 文本检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011622208/article/details/96477896

版权

ocr 专栏收录该内容

44 篇文章 6 订阅

订阅专栏

文章目录

摘要
1. 介绍
3. 提出的方法
4. 实验

摘要

1. 介绍

PSENet的优势有：

基于分割的办法，能检测任意形状的文字
提出了一种渐进扩张算法，能有效分割位置很近的文本
每个文本实例（目标区域）有多个预测的分割实例（如何整合得到输出的？）
为了得到最后的文本区域采用了Breadth-First-Search (BFS)。从最小的预测分割实例开始扩张的。因为最小的分割实例map中文字之间的距离是比较大的，容易分割。

如图：
在这里插入图片描述

3. 提出的方法

3.1 整体框架

图：
在这里插入图片描述

采用ResNet做主干网络
将低层次的特征和高层次的分割实例特征进行融合
这些映射在F中进一步融合，以编码具有各种接受视图的信息
在用F产生n个branchs：S1,S2,—Sn，Si整个图片分割结果。S1是最小的分割结果，Sn是最大的分割结果。用递进比例尺展开算法得到最后的文字区域R

3.2 网络设计

PSENet采用特征金字塔网络为主干网络，将P2,P3,P4,P5融合成1024channel的F
在这里插入图片描述

3.3 渐进式尺度扩展算法

示意图：
在这里插入图片描述
idea来源于数据结构中的广度优先搜索算法

首先是在S1（最小的文字分割map）上可以得到能很好分割开的文本中心区域
第二步，利用S2的像素融合到S1中，来扩张S1
第三部，用S3来扩张上一步得到的结果
最后用上一步得到的结果

这里可能有像素冲突，就是1个点属于两个文字区域，采用谁先扩张就是谁的。

3.4 目标标签

在我们的实践中，通过收缩原始文本实例，可以简单而有效地执行这些基本真值标签。
示意图：
在这里插入图片描述
将原始多边形pn缩小di像素，得到缩小后的多边形pi
di的计算规则(没细看)：

3.5 损失函数

在这里插入图片描述
其中Lc和Ls分别表示完整文本实例和收缩文本实例的损失

采用dice loss作为损失函数
此外，还有许多类似于文本笔画的模式，如栅栏、格，和FOTS一样采用了OHEM（困难样本挖掘）

在这里插入图片描述
其中，D是dice loss，M是OHEM输出的掩码

Ls是收缩文本实例的损失。由于它们被完整文本实例的原始区域所包围，为了避免一定的冗余，我们忽略了分割结果Sn中非文本区域的像素。因此，Ls可以表述为

其中W就是原始的文本区域掩码
就是后面的dice loss是在最大文本掩码的基础上计算的

4. 实验

no time to write

农夫山泉2号

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。