CVPR2021论文--深度学习GAN&&图像处理--论文笔记4

最新推荐文章于 2022-07-04 20:15:29 发布

竹篓有个天

最新推荐文章于 2022-07-04 20:15:29 发布

阅读量1.1k

点赞数 1

分类专栏：数字图像处理图像彩色化 GAN

本文链接：https://blog.csdn.net/OpenSceneGraph/article/details/118147554

版权

图像彩色化同时被 3 个专栏收录

14 篇文章 7 订阅

订阅专栏

数字图像处理

13 篇文章 5 订阅

订阅专栏

GAN

10 篇文章 4 订阅

订阅专栏

/1 Transformer Interpretability Beyond Attention Visualization(注意力可视化之外的Transformer可解释性)

paper:https://arxiv.org/pdf/2012.09838.pdf
code:https://github.com/hila-chefer/Transformer-Explainability

概述：Self-attention技术，特别是Transformer ，在文本处理领域占据主导地位，并在计算机视觉分类任务中越来越受欢迎。现有的方法要么依赖于获得的attention map，要么沿着注意力图进行启发式传播，以直观地显示导致某种分类的图像部分。在这项工作中，我们提出了一种新的使用Transformer 的计算关联的方法。该方法基于深度泰勒分解原理Taylor decomposition标记局部相关性，然后将这些相关性得分通过层传播。这种传播涉及注意层和跳跃连接，这对现有方法构成了挑战。我们的解决方案基于一个特定的公式，该公式显示了跨层保持总体相关性。我们在最近的可视Transformer 网络以及文本分类问题上对我们的方法进行基准测试，并展示了相对于现有的可解释性方法的明显优势。

https://blog.csdn.net/moxibingdao/article/details/106667002

深度泰勒分解原理Taylor decomposition：目前深度学习的解释性不强，深度泰勒分解是一种解释神经网络对个体预测的方法。一般来说，是确定哪些输入变量（这里是像素）对图像分类的结果有多大的贡献，特别是图像中的哪些像素与预测结果直接相关，然后将对应的贡献分配到像素热图上，再对热图可视化就可以得到一种解释。如图所示，鲨鱼图像数据通过机器学习盒子经过分类，得到“鲨鱼”这个分类结果，再将分类结果回溯，图像中的与预测的相关部分以红色突出显示。因此热图中像素的强弱会告诉我们图像中的哪些像素会使图像更多/更少地成为“鲨鱼”。

深度泰勒分解：假定f是神经网络学到的预测函数，对其进行关于某个点x0的近似泰勒展开：

/2 Pre-Trained Image Processing Transformer(底层视觉预训练模型)
paper:https://arxiv.org/pdf/2012.00364.pdf

概述：提出了一种处理低水平视觉任务（超分辨率、图像去雾、图像去噪）的预训练模型。随着现代硬件计算能力的强劲增长，在大规模数据集上学习的预训练深度学习模型(如BERT，GPT-3)已经显示出比传统方法更有效的效果。这一重大进展主要得益于transformer及其变体网络模型的表现能力。本文对底层计算机视觉任务(如去噪、超分辨率和去噪)进行了研究，提出了一种新的预训练模型，即图像处理变换器(IPT)。为了最大限度地挖掘转换器的能力，我们提出利用著名的ImageNet基准测试来生成大量损坏的图像对。IPT模型在这些具有多头和多尾的图像上进行训练。此外，为了更好地适应不同的图像处理任务，还引入了对比学习。因此，经过微调后，预先训练的模型可以有效地应用于期望的任务。由于只有一个预先训练的模型，IPT在各种低级基准上的表现优于当前最先进的方法。

提出的图像处理Transformer 。该模型由用于不同任务的multi-head and multi-tail和包含编码器和解码器的共享Transformer 组成。首先将输入的图像转换为视觉特征，然后将其划分成小块作为视觉词进行后续处理。通过集成输出小块，重构出高视觉质量的图像。

头——编码器——解码器——尾

在自然语言任务中，Transformer 的输入是单词序列，图像数据无法作为输入。解决如何使用 Transformer 处理图像的问题是将 Transformer 应用在视觉任务的第一步。不同于高层视觉语义任务的目标是进行特征抽取，底层视觉任务的输入和输出均为图像。除超分辨率任务之外，大多数底层视觉任务的输入和输出维度相同。相比于高层视觉任务，输入和输出维度匹配这一特性使底层视觉任务更适合由 Transformer 处理。具体而言，研究者在特征图处理阶段引入 Transformer 模块，而图像维度匹配则交给了头结构与尾结构。经过头结果将图片变为特征，再对特征进行切块（按照P*P大小切成N块）和拉平（拉成维度为P^2*C的向量）。将每个特征向量当作一个单词送入Transformer ，得到维度相同的特征。这些输出特征再经过整形和拼接操作，还原为与输入相同维度的特征图。如此处理得到的特征图会被送入一个尾结构，被解码为目标图像。

有了头结构和尾结构负责维度变换，Transformer 模块可以专心地做特征处理。这使得多任务的扩展变得简单：对于不同的任务，只需要增加新的头结构与尾结构即可，多种任务之间的 Transformer 模块是共享的。为了适应多任务，研究者在 Transformer 的解码模块中加入了一个可学习的任务编码。

！！！增加头尾结构，将Transformer 应用到CV领域中

竹篓有个天

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
CVPR2021论文--深度学习GAN&&图像处理--论文笔记4

/1 Transformer Interpretability Beyond Attention Visualization(注意力可视化之外的Transformer可解释性)paper:https://arxiv.org/pdf/2012.09838.pdfcode:https://github.com/hila-chefer/Transformer-Explainability概述：Self-attention技术，特别是Transformer ，在文本处理领域占据主导地位，并在计算机视觉分类.
复制链接

扫一扫