albef论文学习

最新推荐文章于 2024-06-17 09:31:12 发布

李小星同志

最新推荐文章于 2024-06-17 09:31:12 发布

阅读量448

点赞数 4

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li_xiao_xing/article/details/137650797

版权

首先要知道vit是啥东西。vit就是transformer模型在图像领域的运用。

transformer模型原本是用于自然语言的，encoder和decoder接受的都是文字。vit把图像分割成很多个小块，把各个小块拉长当成向量来用，接下来就是一样的。最后接一个全连接层做分类。

注意它只用了encoder部分哦

有些模型会把最后得到的tokens做一个平均作为输入给最后的全连接层的值（用这个平均作为这个图片上提炼出来的信息），有些模型会在后面加上一个cls 作为 token(bert饼干)，最后拿这个cls对应的值作为图像的信息。albet使用的是后者的方法。

再来看albet部分：

左边那一部分其实和vit一毛一样，（可能是图像进入transformer模型的通用方法）提出来的黄色方块就是上文提到的cls对应的token，是图像信息的精华。

右边的部分是bert模型的一部分。用这个已经预训练过的语言模型处理text信息，bert模型那当然cls不得不品，和隔壁cls图像信息门当户对

这里的特点在于他把bert模型拆开了，（不拆开那不就是clip吗）

首先要对刚刚拿到的两个token做简化（downsample , normalization，把向量变短）

得到了两个正样本，就要尽可能让他们两个更近，负样本存在下面的队列里（moco操作，没有梯度不用占一大堆内存）通过正样本和负样本的对比学习得到的loss让图像特征和文本特征尽量拉近。在这一步就要让图像和文本尽量配对

事实上，这个模型只需要下面半部分就已经可以通过正负样本的学习来学习哪些图像和文本可以配对了。

ITM（img text matching）loss是什么？判断文本和图片匹不匹配。这一步不给他上强度的话会很简单，所以会从一开始搞正负样本的地方找出一个与正样本相似度最高的样本作为负样本给它判断，强化其能力。

MLM就是bert的完型填空，但也运用了图像那一边传过来的信息。

主体部分就是这样，接下来是重量级：动量蒸馏

这个主要适用于对付从互联网上爬下来的垃圾数据。我们获得的图像和对应文本经常会牛头不对马嘴，别的文本却又刚好可以放进去，这样正样本和负样本对比学习就要学出史来了。

应对方法：不要one-hot而是multi-hot，从动量模型里得出一些可以的描述，让结果既要和正样本去靠拢，也要接近这些。

问题：动量模型是从哪来的？

李小星同志

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
albef论文学习

有些模型会把最后得到的tokens做一个平均作为输入给最后的全连接层的值（用这个平均作为这个图片上提炼出来的信息），有些模型会在后面加上一个cls 作为 token(bert饼干)，最后拿这个cls对应的值作为图像的信息。这一步不给他上强度的话会很简单，所以会从一开始搞正负样本的地方找出一个与正样本相似度最高的样本作为负样本给它判断，强化其能力。左边那一部分其实和vit一毛一样，（可能是图像进入transformer模型的通用方法）提出来的黄色方块就是上文提到的cls对应的token，是图像信息的精华。
复制链接

扫一扫

李小星同志

博客等级

码龄3年

178
原创

302
点赞

1522
收藏

489
粉丝

关注

私信

热门文章

分类专栏

最新评论

计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 变形补码、双符号位！一直也没有听说，谁家的 CPU 有这种配置。 Intel 的 CPU 中，有一个溢出标志位 OF。它可以自动判别并给出：运算是否溢出！已经有这个现成的标志，还研究 “双符号位” 干嘛？－－－－－－－－－－－－任何一个数，无论是一个字节，或是一个字，都只有一个符号位。是在计算的时候，多弄一个符号位吗？　16 位的 CPU，用 17 位来计算？　32 位的 CPU，用 33 位来计算？什么品牌型号的 CPU，有这种功能啊！从来就没有听说过。双符号位、变形补码，只是某些老师的梦呓而已。不能当真的。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 另外，计算机行业有个翻番的摩尔定律。现在的计算机，比 8086，都不知翻多少番了！现在的计算机中，已经不是 “只有加法器” 了做运算，现在用的是 ALU (算术逻辑单元)。在 ALU 的功能中，已经有了减法运算！那么，想要相减，直接相减就可以了。计算机专业的老师，对此视而不见！仍然喋喋不休的讲 “取反加一”。为什么呢？居心叵测呀！现在终于知道我们缺芯片用的原因了。
计算机组成原理：原，反，补码，加减运算，溢出判断，符号扩展
做而论道_CS: 实际上，计算机只有二进制数。并没有什么符号位原码反码补码。二进制数，也是数，和十进制数，是雷同的。－－－－－－－－－－－－－－－－－－－－－如果使用数字，代表其它信息，才叫做 “码”。如：学号、门牌车牌电话性别书号密码等等。－－－－－－－－－－－－－－－－－－－－－所谓的 “补码”，实际上，它就是一个正数。正数，能当负数用吗？能！关键在于：【舍弃进位】！你看十进制数，两位，范围是：0 ~ 99。那么：38 + 99 = (一百) 37 　　　38 － 1 = 37 舍弃进位，这两种算法，功能就是相同的。　正数，就能当负数来用！　加法，就成了减法！在计算机中，利用此思路，减法器，就省掉了！八位二进制，范围是：0000 0000 ~ 1111 1111。相当于十进制的：0 ~ 255。如果舍弃进位，255 (即 1111 1111)，就能当－1 来使用。你用二进制加法，算一下，便可证明出来。同理，254 (即 1111 1110)，就是－2 了。继续，253 (即 1111 1101)，就是－3 了。。。。这些正数，就被计算机专家称之为：补码。实际上，它们仍然还是数！称为 “码”，是因为，计算机专家不懂算术。由 255 (即 1111 1111) 能当－1，可知：　负数的补码＝ 256 ＋该负数。例题：－50 的补码是什么？求解： 256 ＋ (－50) ＝ 206，　　　 206 = 1100 1110 (二进制)。求补码，就是这么简单！所谓的：　机器数真值符号位原码反码补码正数三码相同　负数取反加一符号位不变模同余符号位也参加运算 ,,, 都是毫无用处的垃圾！正数和零的补码，也可以用这个公式，即：　正数的补码＝ 256 ＋该正数。加上 256，就出现了进位。把进位舍弃掉，就是：　正数的补码＝ 256 ＋该正数　　　　　　＝该正数。这就证明了：正数和零的补码，就是其本身。
数理逻辑 2
csy031117: 是 hitsz 的学长吗？😊
数字逻辑：卡诺图详解
Avon: 建议把卡诺图化简逻辑表达式那里写清楚一点

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。