大模型
文章平均质量分 90
FitzFitzFitz
我是菜狗
展开
-
DINOv2中的Sinkhorn-Knopp,收敛原理以及EMD距离
对于矩阵MMM,目标是找到一个矩阵PPP矩阵PPP的行和等于向量uuu。矩阵PPP的列和等于向量vvv。PPnp.outerusumPaxis1Pnp.outerusumPaxis1))PPPnp.outersumPaxis0vPnp.outersumPaxis0vPEMD 距离,又叫做推土机距离,也叫作 Wasserstein 距离。原创 2024-05-30 12:10:29 · 1903 阅读 · 0 评论 -
DINO结构中的exponential moving average (ema)和stop-gradient (sg)
在 DINO 中,教师和学生网络分别预测一个一维的嵌入。为了训练学生模型,我们需要选取一个损失函数,不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法,来让学生模型的输出与教师模型的输出匹配。具体地,通过 softmax 函数把教师和学生的嵌入向量尺度压缩到 0 到 1 之间,并计算两个向量的交叉熵损失。这样,在训练过程中,学生模型可以通过模仿教师模型的输出来学习更好的特征表示,从而提高模型的性能和泛化能力。原创 2024-05-28 19:10:34 · 2035 阅读 · 0 评论 -
DINO中为什么教师模型用大图,学生模型用小图
在 DINO(可以理解为由DIstillation和NO labels的缩写)中,使用不同的图像裁剪策略对教师模型和学生模型进行训练有其特定的原因。具体来说,教师模型使用大图(global views),学生模型则同时使用大图(global views)和小图(local views)。原创 2024-05-28 18:39:22 · 455 阅读 · 0 评论