[CNN]|CNN与Transformer区别

论文题目:
Do Vision Transformers See Like Convolutional Neural Networks?

论文链接:
http://arxiv.org/abs/2108.08810

Transformer 处理图像时获取的特征是否和之前主流的 CNN 有所区别?

基于这样的动机,Google用Centered Kernel Alignment (CKA)对ResNet和ViT的一些关键层进行了检验。首先了解一下CKA这种方法。CKA是Google在2019年提出的,用于衡量神经网络中层与层之间相似度的指标 [3]。这个指标的优势在于,它能够确定基于不同随机初始化和不同宽度训练的神经网络的隐藏层之间的对应关系。因此,适合用于寻找ResNet和ViT中是否存在有对应的网络层。

利用CKA,研究者发现ResNet和ViT在最接近输入的网络底层(lower layer)时,表征的内容持有较大的相似度;然而,由于两个网络处理表征的方式有很大区别,在层层传递之后,在接近输出的网络上层(higher layer)两者的表征最终区别很大。

在这里插入图片描述
两个在底层表征上有相似之处的网络,居然长着长着发展到了两个方向。

原因1 在整合全局信息的能力上存在差异

因为ResNet在处理输入时,需要经过更多层才能获得类似于ViT底层的表征,由此引发了一个合理的猜想:两个网络在整合全局信息的能力上存在差异。

为了验证这个想法,研究者先是对ViT的不同层中,注意力集中区域的距离进行的计算,他们发现,ViT无论是低层还是高层,都是局部和全局信息混杂的,相比之下,ResNet更为严格地遵守从局部特征提炼全局特征的处理过程。这是导致两个网络中表征的差异逐层增加的一大关键因素。

在这里插入图片描述
ResNet的有效感受域有一个明确地从局部“生长”到全局的过程,而ViT只是在感知局部和全局信息的权重上发生调整

原因2 ViT从底层到高层的相似度比ResNet高

另一方面,这种差异的原因还可能来自ViT从底层到高层的相似度比ResNet高的这一现象。研究者认为,是ViT中的跳跃连接结构 (skip connection)保护了底层到高层的表征传递,如下图所示,如果撤掉特定块区上的这种连接结构,对应的表征信息就会立刻“失传”。

由于上述在处理信息过程上的差异,最终,ViT的高层表征能够更精细地保留局部空间信息。尤其是到了最后分类的关键时刻,ResNet还进行了一次全局的平均池化,进一步显著地减少了高层中局部信息的精细度。
在这里插入图片描述
通过全方位的比较,包括将隐藏层揪出来细细观察。最终,研究者下定结论:虽然它们在性能上不相上下,但以ResNet为代表的CNN与ViT在处理信息的工艺原理上大相径庭。

Google这次的工作其实是把大家直觉性经验性的结论用可复现的实验规范地落在了纸上,并且努力夸夸ViT,好吸引更多研究者采用。在整个验证过程中,ViT模型是Google的,JFT-300M数据集是Google的,CKA度量指标也是Google的

ref
https://www.zhuanzhi.ai/document/2e54a4e67814e53b2f72a1dc958cbe69

### 回答1: ResNet Transformer是一种深度学习模型,结合了ResNet和Transformer的优点。它使用ResNet的残差连接来解决深度网络中的梯度消失问题,并使用Transformer的自注意力机制来捕捉输入序列中的长期依赖关系。ResNet Transformer在计算机视觉和自然语言处理等领域都有广泛的应用。 ### 回答2: ResNet Transformer是一种基于Residual Neural Network(ResNet)和Transformer结构的深度神经网络模型,在计算机视觉和自然语言处理领域中得到广泛应用。 ResNet是深度卷积神经网络的一个经典模型,其通过跨层连接解决了梯度消失问题,可以在减少网络层数的同时提高模型精度。在ResNet中,每一层都将输入与输出相加,从而使每一层向前传播时都能够传递整个网络中的信息。 而Transformer则是一种用于自然语言处理的经典模型,因其具有并行性和可解释性而备受关注。Transformer的核心思想是注意力机制,能够高效地学习文本中各个位置之间的依赖关系,并用于机器翻译等任务中。 ResNet Transformer则将这两种模型相结合,在处理计算机视觉和自然语言处理数据时,可以同时利用ResNet中的跨层连接来处理图像中不同位置之间的依赖关系,以及Transformer的注意力机制来处理文本数据中的依赖关系。这种结合可以在计算机视觉和自然语言处理中同时获得更好的表现。 总之,ResNet Transformer是一种结合了ResNet和Transformer结构的深度神经网络模型,具有在计算机视觉和自然语言处理领域应用的广泛性和高效性。 ### 回答3: ResNet Transformer深度学习中的一个模型,经常被用于图像分类、自然语言处理和语音识别等领域。它是将ResNet卷积神经网络模型和Transformer模型结合起来的产物。ResNet模型使用残差连接来处理深度神经网络中的梯度消失问题,它的优点是可以训练非常深的神经网络。Transformer是自然语言处理领域中的一种强大的模型,它使用了自注意力机制来建模输入和输出之间的依赖关系。 在ResNet Transformer中,首先使用ResNet模型来提取图像的特征。然后,使用Transformer模型来处理图像的特征,从而更好地进行分类任务。这样做的好处是可以更好地发现不同特征之间的联系,从而提高了模型的性能。 这种结合可以被用于各种应用,包括图像分类、目标检测等任务。在这些任务中,ResNet Transformer可以在不同的层次上捕获不同的特征,并使用这些特征来更有效地区分不同的类别。此外,ResNet Transformer还可以支持不同的输入模态,例如图像、文本或语音等,因此具有更广泛的应用领域。 总之,ResNet Transformer深度学习中的两个强大模型进行了结合,从而提高了模型的性能和应用范围。它是当前深度学习领域中的一个热门研究方向,可以应用于各种任务和领域。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值