两篇transfomer 论文解读

本文主要是对最近的两篇transfomer 进行分析

1. inductive bias 归纳偏置

谷歌的MLP-Mixer告诉我们一点,大量的数据是可以战胜inductive bias的,但是显然一点是,数据量小的情况下和ViT是一致的,显得力不从心,存在过拟合的情况。

https://zhuanlan.zhihu.com/p/361686988--动画比较形象的描述了前向推理的过程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer in Transformer是一种用于处理图像的神经网络架构。在这个架构中,有两个层级的Transformer块,分别是Outer Transformer和Inner Transformer。Outer Transformer处理图像的Patch级别信息,即将图像切分成多个Patch,并将每个Patch作为输入进行处理。而Inner Transformer则处理更细粒度的信息,即将每个Patch再次切分成更小的Patch,并将其与Outer Transformer的输出进行融合。这样,Transformer in Transformer能够同时捕捉到图像的整体特征和局部细节,提高了对图像的理解能力。 需要额外说明的是,Transformer模型最初是应用于自然语言处理领域的,但最近在计算机视觉领域也得到了广泛应用。因此,在涉及Transformer的图像处理论文中,可能会省略一些在自然语言处理领域已经形成共识的内容,这可能会使计算机视觉领域的研究人员感到困惑。但是,对于理解Transformer in Transformer这一概念,可以将其视为一种在图像领域应用Transformer的方法,通过组合Outer Transformer和Inner Transformer来提高图像处理的性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [TNT-Transformer in Transformer](https://blog.csdn.net/MengYa_Dream/article/details/124591473)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [一文读懂transformer(CV专享)](https://blog.csdn.net/KANG157/article/details/111499713)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值