longa__-CSDN博客

原创（自用学习笔记）vilt

vilt的表现使得未来关于 VLP 的工作会。

2024-08-26 23:56:09 541

detr是一个端到端的目标检测的方法，该模型使用 Transformer 替代了复杂的目标检测传统套路，它既不需要proposal也不需要anchor，无需nms来去除冗余的框，使模型的训练和部署都变得简单了。detr 将目标检测任务看作集合预测问题，对于一张图片，固定预测一定数量的物体（原作是100个），模型根据这些物体对象与图片中全局上下文的关系直接并行输出预测集，也就是 Transformer 一次性解码出图片中所有物体的预测结果，这种并行特性使得 DETR 非常高效。

2024-08-21 23:42:25 511

原创（自用学习笔记）clip

在推理的时候，我们可以自行给定一组标签，这里clip打破了固定类别标签范式，然后将标签写成一个句子（prompt），然后通过encode提取特征，然后图片通过encode提取特征，最后计算图片和标签中的哪个特征最相似，那么这个图片和标签就匹配上了。从图1可以看到，模型的输入是文字和图片的配对，clip采用的是对比学习的方式进行预训练的，在一组数据中，仅有一个图文对是匹配的，我们称为正样本，其他的都是负样本，openai为了训练clip是专门做了一个有4亿个数据的数据集。图1 clip预训练。

2024-08-20 23:07:26 998

原创（自用学习笔记）swin transformer

拿左下角的窗口举例子，因为6是上面移下来的所以6的高是3，那3的高度就是4，因为一个窗口的大小是7*7的，然后从左到右从上到下的把向量取出来，然后再跟qk矩阵去乘，然后再拿得到的qk做乘法（图里简化了），得到最后的A矩阵，从这个矩阵可以看到只有33和66的区域是需要做自注意力计算的，那其他地方就用掩码盖住。解决方法就是把窗口互补一下，还是拼成原来的4个窗口，但是这样又会出现一个问题就是离得远的像素点其实是不应该做注意力计算的，那这里十分巧妙的给出了掩码的解决方法。下面介绍怎么设计掩码。

2024-08-20 17:49:42 1105

原创（自用学习笔记）moco和mae

（b）将图片的特征用memory bank装起来了，那这样确实是解决了内存的问题，但是他只有一个encode，假如一个minibatch的大小是64，那一次前向的过程之后会更新encode，然后把刚刚抽样出来的64个特征在encode上面进行一次特征提取然后放回去，这样往复之后在memory bank里面的特征就会缺乏一致性，导致效果不好。首先定义了参数fq，fk分别是提取特征的两个encod，queue是队列，m是更新的动量，t是infonce loss的温度。图1 三种模型，最右边的是moco。

2024-08-19 21:21:04 891 1

原创（自用学习笔记）vision transformer

经过一次卷积（卷积核的大小是16*16，步长是16），经过这次卷积我们可以得到14*14*768的特征图（像素的个数不变，相当于把每个patch拉直在了一个像素点里面，所以是16*16*3=768），接下来我们把特征图拉直就得到196*768的矩阵，然后concat一个cls token，之后把位置编码直接与向量相加，在这里我们得到的是197*768的矩阵，然后就可以送到encode里面了。关于位置编码，vit使用的位置编码是学习得到的，这里补充一下比较一般的位置编码。图1 vit的架构图。

2024-08-19 19:55:37 237

转载 OpenCV函数库查询手册（python）

参数：第一个，写入的视频文件名。原型： Sobel(src,ddepth,dx,dy,dst=None,ksize=None,scale=None,delta=None,borderType=None)原型:Laplacian(src,ddepth,dst=None,ksize=None,scale=None,delta=None,borderType=None)原型：GaussianBlur(src,ksize,sigmaX,dst=None,sigmaY=None,borderType=None)

2024-03-25 22:31:21 393