第六周作业：视频学习与论文泛读

本文链接：https://blog.csdn.net/qs17809259715/article/details/120750002

文章目录

Part1: 视频学习

一、《语义分割中的自注意力机制和低秩重建》

详细内容查看论文作者知乎讲解

分析non-local相关因子的工作，分为以下四类：
在这里插入图片描述
注：©GCNet (d)只和距离有关的（均值滤波，高斯滤波等）

在这里插入图片描述

在这里插入图片描述
注：non-local是对全图建模，另一种是邻域内建模，但是具体建模哪个点，并未清楚。
采用多路并行，每路采用不同的点。

在这里插入图片描述

non-local跟DAN比较
在这里插入图片描述

注：HW->K压缩操作。K->HW反压缩

在这里插入图片描述

在这里插入图片描述

注：降至三维，进行可视化，发现火车内部，依然不连续，有各式各样的feature，然后经过重构后，发现火车内部像素都非常相似了，减小了类内方差，并且类内和类间还保持了方差。（一种很好减小类内方差的操作）

RstNet建议使用pytorch encoding中的库。

二、《图像语义分割前沿进展》

1.Res2Net: A New Multi-scale Backbone

在单个残差块内构造分层的残差连接，构建了新的CNN结构。
在这里插入图片描述
层内多尺度，多尺度信息更强。输出包含不一样多尺度信息，降低计算量，运行速度更快。

之所以分组。想要在层内增强多尺度，组内之间进行残差连接，这样才会具有多种组合。

在这里插入图片描述
应用：语义分割，实例分割，关键点估计，交互式分割，全景分割等。

2.Learning Dynamic Routing for Semantic Segmentation （面向语义分割的动态路由学习）

论文链接：https://arxiv.org/pdf/2003.10401.pdf

代码链接：https://github.com/yanwei-li/DynamicRouting

本文所提出的框架会生成与数据相关的路由，以适应每个图像的尺度分布。为此，我们提出了一个可差分的门函数，称为软条件门（上采样，下采样，保持scale三种操作），用于动态选择尺度变换路径。

在这里插入图片描述
不同尺度分布，所需要特征不同，小尺度可能需要细节，大尺度可能需要更加丰富语义信息，进行整体分类。

根据不同输入，自适应结构。
在这里插入图片描述
多尺度路径传播和跨层连接。前向传播的时候，可以多条路径同时走。

Gate门控制，来保证走哪条路径，有三种选择，上采样，下采样，保持scale。

Common通用网络，每次输入大约有95%经过。

NAS-based根据数据从空间中，搜索出适合该数据集的结构，是静态结构。

3.Spatial Pyramid Based Graph Reasoning for Semantic Segmentation（面向语义分割的基于空间金字塔的图推理算法）

论文链接： https://arxiv.org/pdf/2003.10211.pdf

本文中，将图卷积应用到语义分割任务中，并提出了一种改进的Laplacian。图推理算法直接在组织为空间金字塔的原始特征空间中进行。与现有的方法不同，我们的Laplacian是依赖数据的，并且我们引入了一个注意力对角线矩阵来学习一个更好的距离度量。它摆脱了映射和再映射的过程，使得我们提出的方法成为一个轻量级模块，可以很容易地插入到当前的计算机视觉网络架构中。更重要的是，直接在特征空间中执行图推理可以保持空间关系，使得空间金字塔可以从不同尺度上探索多种远距离的上下文模式。

GCN应用到语义分割中，大体思路，feature map映射成语义节点，然后语义节点映射成图卷积。

本篇论文将GCN直接应用到feature map上
难点和优点
在这里插入图片描述
因为本文是直接在feature map上直接进行的gcn操作，所以可以引用spatial pyramid进行上采样和下采样

在这里插入图片描述

GCN理解
在这里插入图片描述
请问全连接的图卷积网络(GCN)和self-attention这些机制有什么区别联系吗？

BlendMask：Top-Down Meets Bottom-Up for InstanceSeg

BlendMask是典型的先做目标检测再做实例分割的文章，它做目标检测完全照搬的FCOS[1]的方法，然后在检测出来的proposal的基础上做实力分割。

BlendMask知识点记录

二、《跨模态学习》

1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval（基于循环注意力记忆的迭代匹配算法-跨模式检索）

图像输入是fast-rcnn抽取区域特征，然后本文会使用一层fc将每个区域特征映射到d维空间。文本输入是使用Bi-GRU作为编码器，在训练中获取每个词的向量表示。模型框架是一个多步迭代的过程，每次迭代主要包含两个部分：CAU(Cross-modal Attention Unit)用来对齐对齐不同模态的片段信息和MDU(Memory distillation unit)用来从前期的匹配步骤动态地整合信息到后期的匹配步骤。

IMRAM方法总体上分为三步：

1）分别提取图像和文本的原始特征；
2）用RAM模块探索二者之间细粒度上的对齐关系；
3）相似性度量以及损失函数迭代优化。

在这里插入图片描述
CAU(Cross-modal Attention Unit)：对跨模态信息进行对齐

基于门控网络的记忆蒸馏单元，受LSTM，GRU等网络启发。在这里插入图片描述
跨模态检索|Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

2.Cross-modality Person re-identification with Shared-Specific Feature Transfer（基于共享特殊性特征转移的跨模态行人重识别）

论文链接：https://arxiv.org/pdf/2002.12489.pdf

在这篇文章中，提出了一种新型的跨模态共享特征转移算法来解决上述局限性，探索模态共享信息和模态特异性特征对提高重识别性能的潜力。我们根据共享特征对不同模态样本的亲和性进行建模，然后在模态之间和跨模态之间转移共享和特定的特征。我们还提出了一种互补特征学习策略，包括模态自适应、对抗性学习和重构增强，分别学习各模态的判别性和互补共享特征和特定特征。

在这里插入图片描述

在这里插入图片描述

创新点1：SSTN，其实是self-attention的一种，也就是一个GCN。

绿色，RGB样本会加权RGB的特异特征，和它近邻空间内其他样本。对于Shared-Specific 也就是蓝色，会加权两个样本。对于白色，RGB样本是会加权对面近邻的特征。最后将三者融合，变成新特征。
在这里插入图片描述

创新点2：互补学习
蓝色不携带模态相关信息
绿色和黄色要求和蓝色不同，并且通过黄色和绿色可以重建出原图使得模态相关学习，放在两个特异特征中。
在这里插入图片描述
图像行人重识别：Cross-modality Person re-identification with Shared-Specific Feature Transfer

CVPR 2020之ReID：Cross-modality Person re-identification with Shared-Specific Feature Transfer

3.Universal Weighting Metric Learning for Cross-Modal Matching（基于通用权重度量学习的跨模态匹配）

在这里插入图片描述

为跨模态匹配，提出了一个通用的加权框架，分别为positive sample和negative sample提出了两个计算多项式权重的函数。
介绍了一种新的多项式损失函数，该函数可以有效的从冗余对中选择信息对

参考：
《Universal Weighting Metric Learning for Cross-Modal Matching》—CVPR2020 论文阅读

[论文阅读] Universal Weighting Metric Learning for Cross-Modal Matching

4.Cross-domain Correspondence Learning for Exemplar-based Image Translation（针对示例图像的跨域对应性学习）

本文提出的模型先将输入语义图像和输入参考风格图像分别通过编码器进行领域对齐，并使用特征计算两者每个像素点之间的相似度，并根据该相似度得到变形的参考图像，再将其使用positional normalization和spatially-variant denormalizaiton（类似于AdaIN）的方法，在从固定噪声生成最终图像的过程中将该风格注入图像。

在这里插入图片描述
本文提出的CoCosNet同时学习跨领域对应和图像转换，CoCosNet包含两个子网络：