计算机视觉学习笔记
文章平均质量分 59
CV
清欢年岁~
计算机视觉、深度学习
展开
-
[2021ICCV]Swin Transformer模型的一些模块
GitHubCSDN:将输入的图片进行切分:此模块用于划分窗口以及mask的生成,slice函数用于切分,划分好每个窗口所占的区域。再利用for循环,给每个patch打上数字标签,数字为同样的patch对应在同一个window里面。划分窗口以及逆操作。attn_mask:用在attention上面的mask。以右下角这块为例:通过这个减法可以得到每个窗口对应的区域,同一区域得到的元素为0,其它数值为不同的区域。最后在不为0的区域填入-100,:基本模块注意下roll方法 roll方原创 2022-06-10 23:52:15 · 575 阅读 · 0 评论 -
[ICLR2021] ViT模型的分析与实现
ViT模型将transformer模型的encoder应用在视觉任务上,取得了很好的效果。对于其基于timm库的实现进行一些注释和学习timm一些重要模块的解读:模块:该模块将输入的图片转化为token的形式,通常x的输入形式为,通过这里的操作可以将其转化为的形式,例如因为每个patch的大小为16*16 所有共有224/16=14 14 * 14=196个token。模块输入:输出:该模块是ViT模型的核心模块之一,用于计算注意力。传入的输入为经过patch化后的token序列。首先通过sh原创 2022-06-08 16:36:53 · 1122 阅读 · 0 评论 -
[损失函数]:损失函数的整理
损失函数原创 2022-06-06 14:58:15 · 188 阅读 · 1 评论 -
[CVPR2022]MAE模型代码分析
MAE模型代码:Github# Copyright (c) Meta Platforms, Inc. and affiliates.# All rights reserved.# This source code is licensed under the license found in the# LICENSE file in the root directory of this source tree.# ------------------------------------------原创 2022-05-23 23:23:10 · 1125 阅读 · 0 评论