高分辨率迭代反馈网络（HitNet）阅读笔记

最新推荐文章于 2024-05-12 23:16:44 发布

东方采菊

最新推荐文章于 2024-05-12 23:16:44 发布

阅读量1.1k

点赞数

文章标签：笔记深度学习人工智能

本文链接：https://blog.csdn.net/Zen_of_code/article/details/130134316

版权

前言

HitNet是2023年2月份发表在AAAI的一篇文章，作者受到图像超分辨率反馈网络的启发，以迭代反馈的方式通过高分辨率特征来细化低分辨率表示，打破了伪装目标检测的性能瓶颈。

如下图，本文的方法与目前的29种SOTA方法在COD10k Test数据集上的性能比较。HitNet的 $F_{\beta}^w$ 为0.798，比排名第二的LSR高16.5%。

并且，在CHAMELEON数据集上，HitNet实现了0.018的平均MAE误差，比SINet-v2提高了40%，优于 $T^2Net$ 的0.023。

在这里插入图片描述

1. 模型的特点

作者提出高分辨率的输入图片对于伪装目标的边缘和边界检测至关重要，而现有的大多数方法都对高分辨率输入进行下采样操作来平衡计算资源和性能，这种从高分辨率（HR）到低分辨率（LR）的输入退化，导致视觉模糊，模型无法捕捉到精细结构。

作者分析，造成图像退化的原因有两个方面：

输入图像缺乏高分辨率信息
缺乏有效的加强低分辨率特征的机制

因此，如何在不牺牲实时性的前提下，保持高分辨率信息的输入水平，增强低分辨率特征，是一个值得探索的课题。

超分辨率的迭代反馈机制允许网络以更高的分辨率矫正更低的分辨率，论文Feedback Network for Image Super-Resolution中提出了一种图像超分辨率反馈网络，通过勾勒边缘和轮廓，同时抑制平滑区域，利用HR信息来细化LR表示。受此启发，作者构建了基于Transformer的高分辨率迭代反馈网络来解决伪装目标检测问题。

如下图所示，使用在LR图像上训练好的SINet分别对高分辨率（HR）输入和低分辨率（LR）输入进行分割。可以发现一个有趣的现象：同一个模型，表现出了不同的效果，HR的分割结果比LR的分割结果有更多的猫胡子等细节。
在这里插入图片描述

2. 模型结构

HitNet主要包含三个模块：

基于Transformer的特征提取模块（TFE）
多分辨率迭代细化模块（RIR）
迭代特征反馈模块（IFF）

为了降低HR特征图的计算成本，采用PVT作为图像特征编码器。

然后，利用RIR模块通过全局和跨尺度反馈策略递归地细化从TFE提取的LR特征。

为了保证反馈特征更好地聚合，使用迭代特征反馈（IFF）对反馈特征流进行约束。

在这里插入图片描述

2.1 基于Transformer的特征提取

Transformer相比于CNN往往需要占用更大的GPU内存，而处理高分辨率图像（HR）将进一步放大这个问题。

PVT作为特征提取模块可以提取多尺度特征，而且因其渐进收缩策略和空间缩减注意机制，可以用较小的内存成本处理相对较高分辨率的特征图。

得到多尺度特征图 $X_1,X_2,X_3,X_4)$ ，分辨率分别是原图的 $(\frac{1}{32},\frac{1}{16},\frac{1}{8},\frac{1}{4})$

2.2 多分辨率反馈细化（特征融合细化）

如结构图中所示，从Transformer主干提取的多尺度分辨率特征 $X$ 被馈送到一个基本块BA( $\cdot$ )中，

$BA(X_i)=C_2(X_i)+C_b(C_2(X_i)) \cdot X_i$

其中， $X_i$ 示Transformer模块产生的第i个尺度的输入特征， $C_2(\cdot)$ 表示两个 $\times 3$ 滤波器堆叠的卷积层， $C_b(\cdot)$ 表示通道注意函数。

源代码如下，根据源代码发现，模块结构如下图。

在这里插入图片描述

## Channel Attention Block (CAB)
class CAB(nn.Module):
    def __init__(self, n_feat, kernel_size, reduction, bias, act):
        super(CAB, self).__init__()
        modules_body = []
        modules_body.append(conv(n_feat, n_feat, kernel_size, bias=bias))
        modules_body.append(act)
        modules_body.append(conv(n_feat, n_feat, kernel_size, bias=bias))

        self.CA = CALayer(n_feat, reduction, bias=bias)
        self.body = nn.Sequential(*modules_body)

    def forward(self, x):
        res = self.body(x)
        res = self.CA(res)
        res += x
        return res

迭代反馈机制在多分辨率反馈细化模块中至关重要，如下图所示，通过逐次迭代可以实现对象边界的高精度分割。

在这里插入图片描述

当第一次迭代时， $in = 1$ ，没有从前一状态传输的反馈特征，此时 $Y_1^{in}$ 是初值0。当迭代次数大于1时，之前迭代产生反馈特征，传递到反馈块 $FB(\cdot)$ 中。

$FB(X_i+Y_i^{in})=Sq(Concat(X_i \uparrow,Y_i^{in}))$

其中， $Y_i^{in}$ 是第i层特征层（ $\neq 2$ ）的第 $in$ 次迭代的反馈特征，符号 $\uparrow$ 代表将 $X_i$ 上采样到与 $Y_i^{in}$ 相同大小，用来避免高分辨率（HR）信息的退化。 $Concat(\cdot)$ 表示将 $X_i$ 和 $Y_i^{in}$ 在通道维度上进行拼接。 $Sq(\cdot)$ 代表使用具有大步长的大卷积核（如果i=1，则卷积核大小为8，步距为4；如果i=3，则卷积核大小为1，步距为1），在分辨率和通道维度上对特征图进行压缩，最终压缩至与第 $i$ 层相同大小。

如结构图中所示，在迭代次数 $in > 1$ 的前提下，第一层的输出特征可表示为：

$S_1^{in}=BA(FB(X_1+Y_1^{in}))$

然后， $S_1^{in}$ 被进一步馈送到下一个尺度中，以生成下一个输出特征：

$S_2^{in}=BA(Concat(S_1^{in} \uparrow,X_2))$

最后，将上一层的特征传到下一层：

$S_3^{in}=BA(Concat(S_2^{in} \uparrow,FB(X_3+Y_3^{in})))$

在第 $in$ 次迭代结束后， $(in + 1)$ 次迭代以同样的方式从第一层到最后一层。不同层级的设计主要是为了获得更好的跨层数据流。如结构图中所示，反馈特征显示输入到第一层和第三层中，而第二层则获取来自上一层的隐式反馈特征。根据实验结果，这种设计可以降低计算成本，但保持良好的性能。

2.3 迭代特征反馈（损失函数）

为了避免因循环导致的特征破坏，提出了迭代特征反馈策略，将每个反馈特征与GT联系在一起。简单地说，就是用损失函数控制反馈特征的数据流。

基础的损失函数为 $L=L_{IoU}^w+L_{BCE}^w$ ，其中， $L_{IoU}^w$ 表示加权的IoU损失， $L_{BCE}^w$ 表示加权的二元交叉熵损失。与F3Net中的递归结构不同，每次迭代都计算HR预测损失，并且用迭代加权的策略来惩罚每次迭代的输出。

$L_{HIF}=\sum_{in}^N(w \cdot in)L(Y^{in})+L(Y')$

其中，in是当前迭代次数，N是总迭代次数，w是权重参数，源代码中为0.2， $Y^{in}$ 是第n次迭代的输出， $Y^{'}$ 是基于图的分辨率融合的输出。由此，通过赋予更高的权重来关注更深层迭代的特征。

为了更有效地集成前一个模块的特征，通过图融合模块引入非局部图融合。

$Y'=GCN(T_1,T_2)$

其中， $Y^{'}$ 是最终预测图， $T_1$ 是 $Y^{in=4}$ ， $T_2$ 是 $X_4$ 经过 $BA(\cdot)$ 模块后的输出，GCN是图融合模块。

3. 思考与分析

HitNet打破性能瓶颈的原因在于以下三点：

每次迭代都输出一个高分辨率（HR）的分割预测，使用分割损失函数对其进行监督，使反馈特征能够学习到HR线索
HR反馈特征与输入特征融合在一个反馈块中，缓解了HR信息的退化
使用反馈融合机制利用多尺度结构中的HR数据流

4. 下一步计划

对于论文中超分辨率的思想还不理解，阅读论文Feedback Network for Image Super-Resolution进一步理解。关注图像增强和超分辨率领域，有无可借鉴之处。
backbone的替换。
特征细化模块与U-Net
考虑论文中提出的课题“如何在不牺牲实时性的前提下，保持高分辨率信息的输入水平，增强低分辨率特征”，考虑计算量和模型运行效率问题。