人工智能论文总结一 PANNet：Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Netwo

最新推荐文章于 2023-11-10 19:48:35 发布

黑砖~

最新推荐文章于 2023-11-10 19:48:35 发布

阅读量2.4k

点赞数

文章标签：深度学习神经网络自然语言处理聚类 pytorch

原文链接：https://arxiv.org/abs/2203.04286

版权

1.PANNet网路结构图

从上图中可知，PANNet主要结构由四部分组成：BackBone+FPEM+FFM+OutPut组成。

BackBone是使用的轻量级模型resnet18，由四个输入图像strides分别为4、8、16、32的conv1、conv2、conv3、conv4组成的主干网络，并使用1*1卷积将每个特征图的映射通道数减少到128的薄特征金字塔 $F{r}$ 。

FPEM结构如上图所示U型结构，其包含两个阶段Up-Scale增强和Down-Scale增强组成，Up-Scale增强阶段作用于输入特征金字塔，在该阶段，增强是以32、16、8、4的strides在特征图上进行迭代。Down-Scale增强的输入是由Up-Scale增强生成的特征金子塔，增强是从4strides到32strides，最终Down-Scale增强输出的特征金塔是FPEM的最终输出。在此过程中使用由3*3的深度卷积和1*1卷积以及BN层和Relu组成的可分离卷积，来构建链接部分，因此FPEM能够以较小的计算开销扩大接收场（3*3深度卷积）和增加网络深度（1*1卷积）。

FPEM结构由FPN相似，与FPN相比其具有两优点：FPEM是一个可级联模块，随着 $N{c}$ 的增加，不同尺度的特征图融合更加充分，特征的感受野也越来越大；FPEM的计算成本很低，其是由可分离卷积构成的，其需要最小的计算量，其计算量大约是FPN的1/5。

FFM特征融合模块用于融合特征金字塔中的F1、F2、F3......Fnc不同深度的特征图。因为底层和高层语义信息对语义分割都很重要，将特征金字塔中的特征图组合起来是一种直接而有效的放法是对它们进行上采样和连接。其首先通过元素加法将相应的Scale的特征图组合起来，然后对组合后的特征图进行上采样，并将其连接成一个只有4*128个通道的最终特征图。

Output由text_region、kernel和similarity_vector三部分组成。text_region用于描述文本完整形状；kernel为预测内核以区分不同的文本实例；similarity_vector为文本像素的相似向量，使得来自同一文本的实例的像素和内核的相似性向量之间的距离最小。

2.后处理

文本区域保持完整的文本阶段形状，但文本实例的文本区域密切关注通常重叠。相反，可以使用kernels进行精细区分文本实例。但是，内kernels不是完整的文本实例。要重建完整的文本实例，需要将文本区域中的像素合并到内核。其使用了一种可学习算法，即像素聚合（Pixel Aggregation），以将文本像素指向正确的kernels。

在像素聚合中其使用了聚类的思想来从kernels中构建完整的文本。将文本实例视为集群，文本的kernels为集群的中心，文本像素是要聚类的样本，从而经过学习将文本像素聚合到相应的kernels。

3.损失函数

其中 $L_{tex}$ 是文本区域的损失函数， $L_{ker}$ 是kernels损失函数。 $\alpha$ 和 $\beta$ 用于平衡 $L_{tex}$ 、 $L_{ker}$

、 $L_{agg}$ 、 $L_{dis}$ 之间的重要性，其设置为0.5和0.25。考虑到文本和非文本像素的极端不平衡，其采用dice loss来监督文本区域的分割结果 $P_{tex}$ 和kernels的 $P_{ker}$ ，因此 $L_{tex}$ 和 $L_{ker}$ 计算如下：

其中 $P_{tex}$ （i）和 $G_{tex}$ （i）分别指预测结果中的第i个像素的值和文本区域的基础真值。文本区域的基础真值是二值图，其中文本像素是1，并且非文本像素为0.类似地， $P_{ker}$ （i）和 $G_{ker}$ （i）表示预和基础真值的第i个像素值kernels。通过缩小原始实际多边形来生成kernels的基础真值，其按比率r缩小原始多边形。并采用在线硬示例挖掘（OHEM）在计算 $L_{tex}$ 时忽略简单的非文本像素，在计算 $L_{ker}$ 、 $L_{agg}$ 和 $L_{dis}$ 时，其只考虑基础真值中的文本像素。

4.效果展示

5.不同数据集测试结果对比

黑砖~

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
人工智能论文总结一 PANNet：Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Netwo

1.PANNet网路结构图从上图中可知，PANNet主要结构由四部分组成：BackBone+FPEM+FFM+OutPut组成。BackBone是使用的轻量级模型resnet18，由四个输入图像strides分别为4、8、16、32的conv1、conv2、conv3、conv4组成的主干网络，并使用1*1卷积将每个特征图的映射通道数减少到128的薄特征金字塔。 FPEM结构如上图所示U型结构，其包含两个阶段Up-Scale增强和Down-Scale增强...
复制链接

扫一扫