- 博客(53)
- 收藏
- 关注
原创 CLIP-LITE造假
不收敛原因:翻到了这篇博客:https://blog.csdn.net/weixin_44441131/article/details/105878383,JSD在两个分布完全不重合时梯度为0,导致无法收敛。翻了一下作者是个印度人,发表在CCF-C会议,草泥马的,浪费老子一天时间。起因:自己拿来训练发现JSD完全不收敛。
2024-06-04 15:44:03 300
原创 PICKLE:gpu调用错误
问题:明明写了cuda:0仍然在开始时会调用gpu1原因:使用pickle.load的文件保存时,tensor就是在gpu1上,于是在load时pickle也直接读到gpu1上解决:pickle保存时换到gpu0,或者提取的模型移到gpu0上
2024-02-27 19:17:04 459
原创 解决:RuntimeError: Expected all tensors to be on the same device, but found at least two devices
RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:0
2023-11-24 20:24:07 2193
原创 解决:UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;
UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;will instead unsqueeze and return a vector.
2023-11-24 20:14:37 892
原创 DeCLIP 论文阅读
论文是为了充分利用单模态和多模态,充分利用单模态特征用自监督(SIMSAM和MLM),多模态用图像文本对比学习实现;一个图片的文本描述大部分都是集中在,作者使用RRC得到一个图像的局部区域进行实现;一个图片有多种描述方式,提出用最近邻文本检索得到更多文本监督。(i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2)在SLIP基础上新增一个文本域的自监督,即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。
2023-11-12 21:16:34 593
原创 CLIP Surgery论文阅读
MnormresizereshapeFi2Fiˉ⋅Ft2Ft⊤重点是CLIP的图可视化,上面是CLIP Surgery可视化的公式。
2023-11-06 17:10:25 1662 3
原创 ESM蛋白质语言模型系列
第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个对齐位置的影响,充分利用二维输入的优势。
2023-10-29 22:29:45 5398 1
原创 GLIP,FLIP论文阅读
1.图像端引入MAE的随机MASK,image encoder只处理未mask的patches(和之前的MAE方法一致),减少了输入序列长度加速训练,减少memory开销。text端没引入mask是因为text信息比较dense(图片信息比较稀疏),mask掉效果反而不好,之后是选择mask掉textpadding的地方提升了精度。2.做了三个方面的scale:说明model和data的scale还是很重要的,不同数据集相同大小也会对模型造成影响。
2023-10-23 19:22:16 561
原创 多模态论文串讲
朱老师画的多模态近期脉络FLIP论文:CLIP基础上用了MAE思想,没mask的当作token,减少序列长度,值得看MetaLM PaLi做什么由prompt决定,调整prompt决定任务调整输出其他:Unified IO Uniperceiver1,2,uniperceiverMOE。
2023-10-17 20:13:45 642
原创 CLIP和改进工作
CLIP 改进方向语义分割Lseg、GroupViT目标检测ViLD、GLIP v1/v2视频理解VideoCLIP、CLIP4clip、ActionCLIP图像生成VQGAN-CLIP、CLIPasso、CLIP-Draw多模态下游任务VL Downstream其他prompt enginering(CoOp等)depthCLIP、pointCLIP(点云)、audioCLIP(音频)数据集4个亿论文标题中有一个重要的点——自然语言监督。这说明 CLIP 是涉及文字和图片的多模态领
2023-10-16 22:35:39 1143
原创 DINO(ICLR 2023)
DINO发展:Conditional DETR->DAB-DETR(4D,WH修正)DN-DETR(去噪训练,deNoising 稳定匹配过程)Deformable DETR(变体1:two-stage,encoder输出经过FFN分类头替换object query,变体2:box迭代细化)论证了DETR类在大数据集上的可扩展性,使用大backbone大dataset和SOTA比较。
2023-09-24 18:26:49 293
原创 DN-DETR(CVPR 2022)
导致了同一个图像,query在不同时期会对不同对象进行匹配DN-DETR在真实的GT上添加噪声:xywh,label。
2023-09-24 00:41:58 315
原创 Anchor DETR
在以前DETR中,目标的查询是一组可学习的embedding。然而,(因为是随机初始化的),所以也不能解释它最终将集中在哪里。此外,由于每个,所以DETR中对可视化的注释:( slots就是100个查询中的一个 )这里三种预测pattern可能相同也可能不同。
2023-09-22 18:05:33 651
原创 对比学习综述
代理任务:Instance Discrimination, predictive, multi-view, multi-modal目标函数:NCE, InfoNCE, 和其他变体一个 encoder + memory bank (Inst Disc);一个 encoder (Invariant Spread);一个 encoder + 一个 auto regressive (CPC);多个 encoders (CMC)任务类型:图像,音频,文字,强化学习等。
2023-07-15 00:50:35 323
原创 EfficientNet论文笔记
通过NAS平衡了channel,depth,resolution,发现在相同的FLOPs下,同时增加 depth和 resolution的效果最好。数据集效果小于resolution怎么办?
2023-07-13 15:20:03 2128
原创 Roi pooling 和 RoiAlign
注意:RoI在上参考:https://blog.csdn.net/qq_29598161/article/details/108137399。
2023-05-31 12:22:48 70
原创 Transformers are Graph Neural Networks
Transformers就是GNNs原文:https://graphdeeplearning.github.io/post/transformers-are-gnns/文章翻译,主要是给自己看的。
2023-05-29 01:11:24 193
原创 对比学习MocoV1
队列(样本不用做梯度回传),移动平均编码器(字典里特征尽量保持一致,训练过程中发现很大一致的字典对无监督对比学习有好处))linear protocol:骨干网络预训练好了,用到其他数据集时backbone freeze,只学FC层,间接证明特征提取的好不好全面的在视觉领域比有监督好。
2023-05-24 22:49:49 385
原创 Blast算法初探 Basic Local Alignment Search Tool
BLAST是一种启发式的算法, 也就是说,它并不确保能找到最优解,但尽力在更短时间内找到足够好的解全局比对
2022-11-25 15:43:39 978
原创 Xception&深度可分离卷积-论文笔记
Xception&深度可分离卷积,Inception介于传统卷积核深度可分离卷积之间,深度可分离卷积可以看作有很多支路的Inception。1.文章思考的角度很深入,从空间和通道的相关性对卷积进行了进一步的思考2.深度可分离卷积不一定是最好的,但空间和通道的解耦的思想很好3.解耦思想。
2022-11-15 22:50:59 1691
原创 Inception v4&Inception-ResNet-V1V2论文笔记
Inceptionv4,Inception-resnet-v1&v2主要工作是把inception模型加宽加深,resnet版本的加残差文章点到不用残差连接也能训练深模型(Inception-v4)
2022-11-13 22:17:39 735
原创 Inception v3 通用设计原则、分解卷积、不对称卷积、下采样模块、label smoothing
通过增加模型大小和增加参数数量可以提升模型性能,但是要考虑计算资源,模型轻量化,兼顾计算效率,提出了分解卷积和label smoothing。
2022-11-11 16:20:04 1423
原创 Inception v2&Batch Normalization论文阅读笔记
BN,batch normalization,inceptionv2,训练深度神经网络很复杂,因为每层的输入分布在训练期间都会变化,因为上一层的参数变了。因此网络需要更低的学习率和更小心的初始化而拖慢了训练,训练用饱和非线性的模型变得更难。这种现象叫做ICS。由于神经网络参数的不断变化,在每次迭代时每层的输入数据都服从不同的分布,这种现象叫内部协变量漂移。Z[L]=W[L]∗A[L−1]+b[L](线性变化层)A[L]=g[L](Z[L])(非线性变化/激活函数层)
2022-11-07 20:06:24 277 1
原创 注意力机制&RNN
心理学认为人通过随意线索核不随意鲜果选择注意点注意力机制中,通过query(随意线索)和key(不随意线索)有偏向性的选择输入可以写作f(x)=Σiα(x,xi)yi,α(x,xi)距离权重。
2022-11-03 21:40:26 740
原创 GoogLeNet (Inception)v1论文笔记
提出了inception结构,旨在提升网络内的计算资源利用率。可以在计算开销不变的情况下增加网络的深度和宽度。decisions were based on 赫布法则和对于multi-scale 处理的直觉。multi-scale:用多种尺度的卷积核并行处理,之后汇总1.稀疏性很重要。2.可以学习Inception的稀疏结构,通过横向增加层来增加宽度,适应现代硬件的并行计算的特性。3.在设计模型的时候要注重计算复杂度和内存占用,除了提升精度之外还要注重模型在真实场景的可用性。
2022-10-27 15:53:12 699 1
空空如也
Batch Normalization论文中的疑问
2022-11-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人