【Transformer in Transformerl论文笔记】

Transformer in Transformerl论文笔记

一、introduction

1、本文出自华为诺亚方舟,作者是韩凯,发布于NeurIPS。
2、NeurIPS,全称Annual Conference on Neural Information Processing Systems,是人工智能领域的顶级会议,与ICML并称为人工智能领域难度最大,水平最高,影响力最强的会议!
3、原代码链接将在
在这里插入图片描述1、Transformer是一种基于自注意力机制的新型神经网络,近年来表现出超越CNN、RNN邓等传统神经网络的能力。
2、Transformer最开始应用于NLP任务,2020年10月,提出的ViT模型,使纯transformer架构可很好地用于视觉识别。

二、motivation

1、ViT存在不足的地方,本文在ViT基础上,编码patch内的pixel之间的结构信息。
2、将图像切块输入Transformer,图像块拉直成向量向量进行处理,忽略了图像块内部的局部关系和结构信息。通过将块投影到一个矢量,空间结构被破坏了,很难学习。
在这里插入图片描述

三、method

使用两个transformer,外transformer负责编码大小为16 × 16 16 \times 1616×16的patch之间的关系,内transformer负责编码大小为4 × 4 4 \times 44×4的super-pixel之间的关系。
在这里插入图片描述在这里插入图片描述在这里插入图片描述

四、experiment

在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

[1]https://blog.csdn.net/ms961516792/article/details/114544048

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值