Swin trasnformer 学习笔记

leener-Y

已于 2022-04-08 21:44:31 修改

阅读量1.7k

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

于 2022-04-08 21:33:12 首次发布

本文链接：https://blog.csdn.net/kleen_y/article/details/124037119

版权

深度学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

提示：Swin transformer 学习笔记，仅供学习记录，方便日后回顾，侵删

文章目录

前言
一、主要贡献
- 1.如何抓住多尺度特征
- 2. 滑动窗口和窗口自注意力
二、网络主干
三、其他知识补充：

前言

文章只供自己学习使用，侵删

文章主要通过观看B站沐神视频和霹雳吧啦博主视频做的笔记。优秀的文章和网络结构很多，需要慢慢学习。

一、主要贡献

通过两张图来展示

1.如何抓住多尺度特征

多尺度特征

2. 滑动窗口和窗口自注意力

滑动窗口

二、网络主干

1.模型整体架构

模型整体架构

2.怎样提高移动窗口的计算效率：采用masking（掩码）的方式计算自注意力

在这里插入图片描述

3. 相对位置编码

不同于ViT中在输入序列中加上一个绝对的位置编码,swinTransformer使用的是相对位置偏置,加在attention内部的查询操作里。

参考：

1. 沐神swin transformer 讲解
 2. 霹雳吧啦 swin transformer 讲解

三、其他知识补充：

1.Test time augmentation(TTA)

数据增强通常使用图像数据执行，其中使用一些执行的图像处理技术(如缩放、翻转、移位等)创建训练数据集中的图像副本。

Test time augmentation(简称TTA)是对测试数据集进行数据扩展的应用程序。

Test Time Augmentation（TTA），测试数据增强，是在测试阶段时，将输入的测试数据进行，翻转、旋转操作等数据增强，并最后对同一样本的不同数据增强的结果根据任务需求进行例如平均，求和等数据处理。

可以提升最终结果的精度。因为在作图像增强时，可能导致图像关键信息丢失。

参考

2. 神经架构搜索(Neural Architecture Search,NAS)

简介:

NAS 的目的就是希望可以有一套演算法或是一个框架能够自动的根据我们的需求找到最好的 neural architecture，而我们的搜索目标有可能会是根据 performance，或是根据硬体资源限制 (hardware constraints) 来进行搜索。

参考：神经架构搜索(Neural Architecture Search,NAS)介绍

3. 归纳偏置（inductive bias）

最先看到这个词，是在读有关卷积神经网络的时候看到的，它是讲CNN使用滑动卷积窗口共享权重来降低空间参数，其实就是一种归纳偏置，因为CNN认为图像信息具有空间局部性（locality）。从这个角度来讲的话，归纳偏置可以简单理解为网络自身的偏好，网络自身的特性。“归纳”一词，就可以于数学上的数学归纳法意思相似，可以理解为归纳性偏好。

西瓜书中对归纳偏好是这样的定义的，机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好，简称偏好（1.4节，6）。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行选择的启发式或者“价值观”。

在深度学习时代，这种归纳性偏好更为明显。比如深度神经网络结构就偏好性的认为，层次化处理信息有更好效果；卷积神经网络认为信息具有空间局部性（locality），可以用滑动卷积共享权重方式降低参数空间；反馈神经网络则将时序信息考虑进来强调顺序重要性；图网络则是认为中心节点与邻居节点的相似性会更好引导信息流动。可以说深度学习时代，纷繁的网络结构创新就体现了不同的归纳性偏。

参考知乎作者：Young