Transformer结构的初步探索

https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0icon-default.png?t=LA92https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0这是原作者来做的swim transformer的核心要点的讲解

首先,有一个重要的研究方向是为NLP和CV进行统一建模。从2017年,NLP领域基本上就是使用transformer结构来处理自然语言,而cv领域自2012的alexnet开始,一直沉浸在cnn的世界中。但这套方法论继承自上世纪九十年代的lenet.CV的目标是要任意地理解图片以及视频,但是目前的任务和NLP的连接是十分微弱的

这里提到了2020年的VIT(vision transformer),使用一种暴力的方法将transformer结构用于处理图像分类任务

这个结构比之前设想的还要简单,没有看到decoder.将样本进行均分,以patch为单位,patch就相当于字块或者子图像,将patch经过处理之后送进encoder,然后通过FC head, 输出最后的分类结果

VIT取得了当年最好的性能。但是VIT的局限性在于它的结构只能处理分类问题,对于检测(区域级别)和分割(像素级别)任务无能为力

swim transformer:在VIT的基础上,针对vision signal的特点做了改进以适应更为复杂的工作

视觉信号里面有一些好的性质,层次性(hierachy),局部性(locality),平移不变性(translation invariance),这个平移不变性我记得不是卷积操作的特性吗??

这里提到,一开始会划分小的patch,从而获得较高分辨率的输出 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值