文章目录
- Part1: 视频学习
- 一、《语义分割中的自注意力机制和低秩重建》
- 二、《图像语义分割前沿进展》
- 二、《跨模态学习》
- 1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval(基于循环注意力记忆的迭代匹配算法-跨模式检索)
- 2.Cross-modality Person re-identification with Shared-Specific Feature Transfer(基于共享特殊性特征转移的跨模态行人重识别)
- 3.Universal Weighting Metric Learning for Cross-Modal Matching(基于通用权重度量学习的跨模态匹配)
- 4.Cross-domain Correspondence Learning for Exemplar-based Image Translation(针对示例图像的跨域对应性学习)
- Part2:论文泛读
Part1: 视频学习
一、《语义分割中的自注意力机制和低秩重建》
分析non-local相关因子的工作,分为以下四类:
注:©GCNet (d)只和距离 有关的(均值滤波,高斯滤波等)
注:non-local是对全图建模,另一种是邻域内建模,但是具体建模哪个点,并未清楚。
采用多路并行,每路采用不同的点。
non-local跟DAN比较
注:HW->K压缩操作。K->HW反压缩
注:降至三维,进行可视化,发现火车内部,依然不连续,有各式各样的feature,然后经过重构后,发现火车内部像素都非常相似了,减小了类内方差,并且类内和类间还保持了方差。(一种很好减小类内方差的操作)
RstNet建议使用pytorch encoding中的库。
二、《图像语义分割前沿进展》
1.Res2Net: A New Multi-scale Backbone
在单个残差块内构造分层的残差连接,构建了新的CNN结构。
层内多尺度,多尺度信息更强。输出包含不一样多尺度信息,降低计算量,运行速度更快。
之所以分组。想要在层内增强多尺度,组内之间进行残差连接,这样才会具有多种组合。
应用:语义分割,实例分割,关键点估计,交互式分割,全景分割等。
2.Learning Dynamic Routing for Semantic Segmentation (面向语义分割的动态路由学习)
论文链接:https://arxiv.org/pdf/2003.10401.pdf
代码链接:https://github.com/yanwei-li/DynamicRouting
本文所提出的框架会生成与数据相关的路由,以适应每个图像的尺度分布 。为此,我们提出了一个可差分的门函数,称为软条件门(上采样,下采样,保持scale三种操作),用于动态选择尺度变换路径。
不同尺度分布,所需要特征不同,小尺度可能需要细节,大尺度可能需要更加丰富语义信息,进行整体分类。
根据不同输入,自适应结构。
多尺度路径传播和跨层连接。前向传播的时候,可以多条路径同时走。
Gate门控制,来保证走哪条路径,有三种选择,上采样,下采样,保持scale。
Common通用网络,每次输入大约有95%经过。
NAS-based根据数据从空间中,搜索出适合该数据集的结构,是静态结构。
3.Spatial Pyramid Based Graph Reasoning for Semantic Segmentation(面向语义分割的基于空间金字塔的图推理算法)
论文链接: https://arxiv.org/pdf/2003.10211.pdf
本文中,将图卷积应用到语义分割任务中,并提出了一种改进的Laplacian。图推理算法直接在组织为空间金字塔的原始特征空间中进行。与现有的方法不同,我们的Laplacian是依赖数据的,并且我们引入了一个注意力对角线矩阵来学习一个更好的距离度量。它摆脱了映射和再映射的过程,使得我们提出的方法成为一个轻量级模块,可以很容易地插入到当前的计算机视觉网络架构中。更重要的是,直接在特征空间中执行图推理可以保持空间关系,使得空间金字塔可以从不同尺度上探索多种远距离的上下文模式。
GCN应用到语义分割中,大体思路,feature map映射成语义节点,然后语义节点映射成图卷积。
本篇论文将GCN直接应用到feature map上
难点和优点
因为本文是直接在feature map上直接进行的gcn操作,所以可以引用spatial pyramid进行上采样和下采样
GCN理解
请问全连接的图卷积网络(GCN)和self-attention这些机制有什么区别联系吗?
BlendMask:Top-Down Meets Bottom-Up for InstanceSeg
BlendMask是典型的先做目标检测再做实例分割的文章,它做目标检测完全照搬的FCOS[1]的方法,然后在检测出来的proposal的基础上做实力分割。
二、《跨模态学习》
1.IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval(基于循环注意力记忆的迭代匹配算法-跨模式检索)
图像输入是fast-rcnn抽取区域特征,然后本文会使用一层fc将每个区域特征映射到d维空间。文本输入是使用Bi-GRU作为编码器,在训练中获取每个词的向量表示。模型框架是一个多步迭代的过程,每次迭代主要包含两个部分:CAU(Cross-modal Attention Unit)用来对齐对齐不同模态的片段信息和MDU(Memory distillation unit)用来从前期的匹配步骤动态地整合信息到后期的匹配步骤。
IMRAM方法总体上分为三步:
- 1)分别提取图像和文本的原始特征;
- 2)用RAM模块探索二者之间细粒度上的对齐关系;
- 3)相似性度量以及损失函数迭代优化。
CAU(Cross-modal Attention Unit):对跨模态信息进行对齐
基于门控网络的记忆蒸馏单元,受LSTM,GRU等网络启发。
跨模态检索|Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval
2.Cross-modality Person re-identification with Shared-Specific Feature Transfer(基于共享特殊性特征转移的跨模态行人重识别)
论文链接:https://arxiv.org/pdf/2002.12489.pdf
在这篇文章中,提出了一种新型的跨模态共享特征转移算法来解决上述局限性,探索模态共享信息和模态特异性特征对提高重识别性能的潜力。我们根据共享特征对不同模态样本的亲和性进行建模,然后在模态之间和跨模态之间转移共享和特定的特征。我们还提出了一种互补特征学习策略,包括模态自适应、对抗性学习和重构增强,分别学习各模态的判别性和互补共享特征和特定特征。
创新点1:SSTN,其实是self-attention的一种,也就是一个GCN。
绿色,RGB样本会加权RGB的特异特征,和它近邻空间内其他样本。对于Shared-Specific 也就是蓝色,会加权两个样本。对于白色,RGB样本是会加权对面近邻的特征。最后将三者融合,变成新特征。
创新点2:互补学习
蓝色不携带模态相关信息
绿色和黄色要求和蓝色不同,并且通过黄色和绿色可以重建出原图使得模态相关学习,放在两个特异特征中。
图像行人重识别:Cross-modality Person re-identification with Shared-Specific Feature Transfer
CVPR 2020之ReID:Cross-modality Person re-identification with Shared-Specific Feature Transfer
3.Universal Weighting Metric Learning for Cross-Modal Matching(基于通用权重度量学习的跨模态匹配)
- 为跨模态匹配,提出了一个通用的加权框架,分别为positive sample和negative sample提出了两个计算多项式权重的函数。
- 介绍了一种新的多项式损失函数,该函数可以有效的从冗余对中选择信息对
参考:
《Universal Weighting Metric Learning for Cross-Modal Matching》—CVPR2020 论文阅读
[论文阅读] Universal Weighting Metric Learning for Cross-Modal Matching
4.Cross-domain Correspondence Learning for Exemplar-based Image Translation(针对示例图像的跨域对应性学习)
本文提出的模型先将输入语义图像和输入参考风格图像分别通过编码器进行领域对齐,并使用特征计算两者每个像素点之间的相似度,并根据该相似度得到变形的参考图像,再将其使用positional normalization和spatially-variant denormalizaiton(类似于AdaIN)的方法,在从固定噪声生成最终图像的过程中将该风格注入图像。
本文提出的CoCosNet同时学习跨领域对应和图像转换,CoCosNet包含两个子网络:
- 1、跨领域网络将输入从不同的领域转换成一个中间特征领域,从这个领域可以建立可靠的稠密对应关系;
- 2、转化网络,利用一系列转换模块,从一个warp的examplar(语义上和mask是对齐的)提取风格细节信息,根据估计的对应关系进行渲染。
生成的图,满足两个条件,定义相关loss函数。
与input在相同坐标保持相同语义信息
与exemplars样例图保持style一样。
注:1. 伪参考图像对损失,2. 语义约束损失,3. 风格约束损失,4. 生成对抗损失,5. 领域对齐损失,6. 相似度矩阵正则化损失
【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
Part2:论文泛读
1.CVPR 2019 《Selective Kernel Networks》
论文地址:https://arxiv.org/pdf/1903.06586.pdf
代码源自:https://github.com/implus/SKNet
作者提出了一种可以实现适应性变化感受野的网络模块,根据输入信息自动调整感受野大小,Selective Kernel,这个模块分为三个部分:
- Split 将输入信息使用不同size的Kernel进行卷积
- Fuse 将多个卷积结果进行聚合,类似SENet操作。
- Select 根据聚合后的feature map判断各个支路组合时的权重
在该模块中,作者使用了多分支卷积网络、组卷积、空洞卷积以及注意力机制。
参考:
【论文阅读】Selective Kernel Networks
如何理解空洞卷积(dilated convolution)?
SKNet解读
【CV中的Attention机制】Selective-Kernel-Networks-SE进化版
作者讲解:SKNet——SENet孪生兄弟篇
2.CVPR 2020 《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》
论文地址:https://arxiv.org/pdf/2003.13328.pdf
Github:https://github.com/Andrew-Qibin/SPNet
1.strip pooling模块(SPM),以有效地扩大骨干网络的感受野范围。
- 使用这种长条形的kernel可以极大增大感受野,从而可以使得那些相距较远的部分也能被网络捕获到;
- 由于使用了长条形的kernel可以使得池化操作更加关注一片区域,从而避免常规kernel带来的无关信息引入;
2.Mixed Pooling Module混合池化模块(MPM)
- 如上图(a),为原始的金字塔池化模型PPM-Pyramid pooling module,由多到少的池化,可以有效增大感受野,增大全局信息的利用效率,可以用于捕获特征位置的短距离依赖关系。
- 如上图(b),使用strip pooling的方式,可以捕获更长距离特征之间的依赖关系。
参考:
[论文笔记] Strip Pooling(SPNet)
CVPR2020-Strip Pooling-优于空间池化 | Strip Pooling: Rethinking Spatial Pooling for Scene Parsing
《Strip Pooling:Rethinking Spatial Pooling for Scene Parsing》论文笔记
3.CVPR 2019 《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》
论文地址:http://cn.arxiv.org/pdf/1902.09212.pdf
代码地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
High-Resolution Net(HRNet),它能在整个处理过程中保持高分辨率表达。
在第一阶段,我们从一个高分辨率的子网开始,随着每个阶段,逐渐附加分辨率从高到低的子网络,并将各个子网并行连接起来。
我们通过在整个过程中在并行的多分辨率子网间反复交互信息,实现了反复的多尺度的融合。我们通过高分辨率的输出估计关键点。
较高的空间分辨率有利于特征点精确定位,低分辨率具有更多的语义信息。
参考:
HRNet论文复现(PaddlePaddle版)
论文解读:《Deep High-Resolution Representation Learning for Visual Recognition》(HRNet)
学习CVPR 2019 论文《用于人体姿态估计的深度高分辨率表示学习》(HRNets)
高分辨率姿态估计与追踪 HRNet: Deep High-Resolution Representation Learning for Human Pose Estimation