PICKLE:gpu调用错误 问题:明明写了cuda:0仍然在开始时会调用gpu1原因:使用pickle.load的文件保存时,tensor就是在gpu1上,于是在load时pickle也直接读到gpu1上解决:pickle保存时换到gpu0,或者提取的模型移到gpu0上
解决:RuntimeError: Expected all tensors to be on the same device, but found at least two devices RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:0
解决:UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars; UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;will instead unsqueeze and return a vector.
DeCLIP 论文阅读 论文是为了充分利用单模态和多模态,充分利用单模态特征用自监督(SIMSAM和MLM),多模态用图像文本对比学习实现;一个图片的文本描述大部分都是集中在,作者使用RRC得到一个图像的局部区域进行实现;一个图片有多种描述方式,提出用最近邻文本检索得到更多文本监督。(i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2)在SLIP基础上新增一个文本域的自监督,即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。
CLIP Surgery论文阅读 MnormresizereshapeFi2Fiˉ⋅Ft2Ft⊤重点是CLIP的图可视化,上面是CLIP Surgery可视化的公式。
ESM蛋白质语言模型系列 第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个对齐位置的影响,充分利用二维输入的优势。
GLIP,FLIP论文阅读 1.图像端引入MAE的随机MASK,image encoder只处理未mask的patches(和之前的MAE方法一致),减少了输入序列长度加速训练,减少memory开销。text端没引入mask是因为text信息比较dense(图片信息比较稀疏),mask掉效果反而不好,之后是选择mask掉textpadding的地方提升了精度。2.做了三个方面的scale:说明model和data的scale还是很重要的,不同数据集相同大小也会对模型造成影响。
多模态论文串讲 朱老师画的多模态近期脉络FLIP论文:CLIP基础上用了MAE思想,没mask的当作token,减少序列长度,值得看MetaLM PaLi做什么由prompt决定,调整prompt决定任务调整输出其他:Unified IO Uniperceiver1,2,uniperceiverMOE。
CLIP和改进工作 CLIP 改进方向语义分割Lseg、GroupViT目标检测ViLD、GLIP v1/v2视频理解VideoCLIP、CLIP4clip、ActionCLIP图像生成VQGAN-CLIP、CLIPasso、CLIP-Draw多模态下游任务VL Downstream其他prompt enginering(CoOp等)depthCLIP、pointCLIP(点云)、audioCLIP(音频)数据集4个亿论文标题中有一个重要的点——自然语言监督。这说明 CLIP 是涉及文字和图片的多模态领
DINO(ICLR 2023) DINO发展:Conditional DETR->DAB-DETR(4D,WH修正)DN-DETR(去噪训练,deNoising 稳定匹配过程)Deformable DETR(变体1:two-stage,encoder输出经过FFN分类头替换object query,变体2:box迭代细化)论证了DETR类在大数据集上的可扩展性,使用大backbone大dataset和SOTA比较。
Anchor DETR 在以前DETR中,目标的查询是一组可学习的embedding。然而,(因为是随机初始化的),所以也不能解释它最终将集中在哪里。此外,由于每个,所以DETR中对可视化的注释:( slots就是100个查询中的一个 )这里三种预测pattern可能相同也可能不同。
对比学习综述 代理任务:Instance Discrimination, predictive, multi-view, multi-modal目标函数:NCE, InfoNCE, 和其他变体一个 encoder + memory bank (Inst Disc);一个 encoder (Invariant Spread);一个 encoder + 一个 auto regressive (CPC);多个 encoders (CMC)任务类型:图像,音频,文字,强化学习等。