https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0https://www.bilibili.com/video/BV1hQ4y1e7js/?spm_id_from=333.788.recommend_more_video.0这是原作者来做的swim transformer的核心要点的讲解
首先,有一个重要的研究方向是为NLP和CV进行统一建模。从2017年,NLP领域基本上就是使用transformer结构来处理自然语言,而cv领域自2012的alexnet开始,一直沉浸在cnn的世界中。但这套方法论继承自上世纪九十年代的lenet.CV的目标是要任意地理解图片以及视频,但是目前的任务和NLP的连接是十分微弱的
这里提到了2020年的VIT(vision transformer),使用一种暴力的方法将transformer结构用于处理图像分类任务
这个结构比之前设想的还要简单,没有看到decoder.将样本进行均分,以patch为单位,patch就相当于字块或者子图像,将patch经过处理之后送进encoder,然后通过FC head, 输出最后的分类结果
VIT取得了当年最好的性能。但是VIT的局限性在于它的结构只能处理分类问题,对于检测(区域级别)和分割(像素级别)任务无能为力
swim transformer:在VIT的基础上,针对vision signal的特点做了改进以适应更为复杂的工作
视觉信号里面有一些好的性质,层次性(hierachy),局部性(locality),平移不变性(translation invariance),这个平移不变性我记得不是卷积操作的特性吗??
这里提到,一开始会划分小的patch,从而获得较高分辨率的输出