pytorchOCR之PAN

最新推荐文章于 2023-11-15 23:43:09 发布

一名ai小菜鸡

最新推荐文章于 2023-11-15 23:43:09 发布

阅读量710

点赞数 1

分类专栏： OCR 文章标签：深度学习

本文链接：https://blog.csdn.net/fxwfxw7037681/article/details/113657834

版权

OCR 专栏收录该内容

13 篇文章 103 订阅

订阅专栏

pytorchOCR之PAN

论文
 官方代码

主要思想

这篇文章主要是基于一个聚类的思想，将每一个单独的文本看做是一类。文章借鉴了CornerNet 中的思想，为每个像素点预测一个四维的向量。文本kernel中像素点的四维向量的均值，作为一个聚类中心，于是属于该类中心的像素的四维向量与聚类中心四维向量的距离应该尽可能小，并且每个聚类中心四维向量距离应该尽可能大。

模型架构

在这里插入图片描述
本文主要创新点在于提出了两个模块，FPEM和FFM，以及通过训练一个聚类的思想的四维相似向量。最后依旧通过相似向量聚合文本像素得到文本框。

FPEM

在这里插入图片描述
这里也很明显通过上采样和下采样，不断融合相邻的特征图，参见ptocr/model/head/det_FPEM_FFM_Head.py的FPEM类。

FFM

在这里插入图片描述
FFM就是将FPEM中得到的每个尺度的特征图，相同大小的特征图相加，进一步融合特征。最终将每个尺度特征图插值到同一大小进行concat，就得到最后的分割预测图。，参见ptocr/model/head/det_FPEM_FFM_Head.py的FFM类。

loss

在这里插入图片描述

$F (p)$ 代表代表像素p的四维向量， $g(k_i)$ 代表第 $k_i$ 个kernel的四维向量（这里的四维向量为属于kernel向量的像素的四维向量的均值）。两者求二范数减去一个实验定值 $δ_{agg}$ 并和0作比较求最大。当像素p和kernel的四维向量越相似，公式二越趋向于0，代入公式1同样趋向于0。所以越相似loss越小

在这里插入图片描述
$g(k_i)$ 和 $g(k_j)$ 分别为第 $k_i$ 和 $k_j$ 个kernel的四维向量， $δ_{dis}$ 为实验常数。由公式4可知，当两者的四维向量越不相似，两者的范数越大，则 $δ_{dis}-||g(k_i)-g(k_j)||$ 趋向于0或小于0，则整个式子趋向于0.代入公式3也趋向于0，所以kernel之间越不相似，loss越小。

在这里插入图片描述
kernel和text的loss为dice loss，用作分割。

最终总的loss如下：
在这里插入图片描述
所有loss的代码在ptocr/model/loss/basical_loss.py，对应Agg_loss,Dis_loss,DiceLoss.

像素聚合

像素聚合和pse区别不大，只是加入了一个相似向量之间距离的约束，论文中设定了与kernel四维向量距离小于6的像素进行聚合。

说明：文中图均来自论文

一名ai小菜鸡

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
pytorchOCR之PAN

pytorchOCR之PAN论文官方代码主要思想这篇文章主要是基于一个聚类的思想，将每一个单独的文本看做是一类。文章借鉴了centernet中的思想，为每个像素点预测一个四维的向量。文本kernel中像素点的四维向量的均值，作为一个聚类中心，于是属于该类中心的像素的四维向量与聚类中心四维向量的距离应该尽可能小，并且每个聚类中心四维向量距离应该尽可能大。...
复制链接

扫一扫