自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 CLIP-LITE造假

不收敛原因:翻到了这篇博客:https://blog.csdn.net/weixin_44441131/article/details/105878383,JSD在两个分布完全不重合时梯度为0,导致无法收敛。翻了一下作者是个印度人,发表在CCF-C会议,草泥马的,浪费老子一天时间。起因:自己拿来训练发现JSD完全不收敛。

2024-06-04 15:44:03 252

原创 PICKLE:gpu调用错误

问题:明明写了cuda:0仍然在开始时会调用gpu1原因:使用pickle.load的文件保存时,tensor就是在gpu1上,于是在load时pickle也直接读到gpu1上解决:pickle保存时换到gpu0,或者提取的模型移到gpu0上

2024-02-27 19:17:04 412

原创 解决:RuntimeError: Expected all tensors to be on the same device, but found at least two devices

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:0

2023-11-24 20:24:07 2007

原创 解决:UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;

UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;will instead unsqueeze and return a vector.

2023-11-24 20:14:37 661

原创 FD-Align论文阅读

主要工作是针对微调的和之前的prompt tuining,adapter系列对比。

2023-11-12 21:46:45 478

原创 DeCLIP 论文阅读

论文是为了充分利用单模态和多模态,充分利用单模态特征用自监督(SIMSAM和MLM),多模态用图像文本对比学习实现;一个图片的文本描述大部分都是集中在,作者使用RRC得到一个图像的局部区域进行实现;一个图片有多种描述方式,提出用最近邻文本检索得到更多文本监督。(i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2)在SLIP基础上新增一个文本域的自监督,即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。

2023-11-12 21:16:34 550

原创 CLIP Surgery论文阅读

Mnorm​resize​reshape​​Fi​​​2​Fiˉ​​⋅​Ft​​​2​Ft​​⊤​​​重点是CLIP的图可视化,上面是CLIP Surgery可视化的公式。

2023-11-06 17:10:25 1437 3

原创 MolFormer分子预训练模型

molformer分子预训练语言模型

2023-11-01 21:53:38 230

原创 ESM蛋白质语言模型系列

第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个对齐位置的影响,充分利用二维输入的优势。

2023-10-29 22:29:45 4197 1

原创 GLIP,FLIP论文阅读

1.图像端引入MAE的随机MASK,image encoder只处理未mask的patches(和之前的MAE方法一致),减少了输入序列长度加速训练,减少memory开销。text端没引入mask是因为text信息比较dense(图片信息比较稀疏),mask掉效果反而不好,之后是选择mask掉textpadding的地方提升了精度。2.做了三个方面的scale:说明model和data的scale还是很重要的,不同数据集相同大小也会对模型造成影响。

2023-10-23 19:22:16 528

原创 多模态论文串讲

朱老师画的多模态近期脉络FLIP论文:CLIP基础上用了MAE思想,没mask的当作token,减少序列长度,值得看MetaLM PaLi做什么由prompt决定,调整prompt决定任务调整输出其他:Unified IO Uniperceiver1,2,uniperceiverMOE。

2023-10-17 20:13:45 530

原创 CLIP和改进工作

CLIP 改进方向语义分割Lseg、GroupViT目标检测ViLD、GLIP v1/v2视频理解VideoCLIP、CLIP4clip、ActionCLIP图像生成VQGAN-CLIP、CLIPasso、CLIP-Draw多模态下游任务VL Downstream其他prompt enginering(CoOp等)depthCLIP、pointCLIP(点云)、audioCLIP(音频)数据集4个亿论文标题中有一个重要的点——自然语言监督。这说明 CLIP 是涉及文字和图片的多模态领

2023-10-16 22:35:39 963

原创 DINO(ICLR 2023)

DINO发展:Conditional DETR->DAB-DETR(4D,WH修正)DN-DETR(去噪训练,deNoising 稳定匹配过程)Deformable DETR(变体1:two-stage,encoder输出经过FFN分类头替换object query,变体2:box迭代细化)论证了DETR类在大数据集上的可扩展性,使用大backbone大dataset和SOTA比较。

2023-09-24 18:26:49 260

原创 DN-DETR(CVPR 2022)

导致了同一个图像,query在不同时期会对不同对象进行匹配DN-DETR在真实的GT上添加噪声:xywh,label。

2023-09-24 00:41:58 285

原创 DAB-DETR

贡献:明确了不是由于learnable queries导致的收敛缓慢4D anchor。

2023-09-23 15:21:13 225

原创 Anchor DETR

在以前DETR中,目标的查询是一组可学习的embedding。然而,(因为是随机初始化的),所以也不能解释它最终将集中在哪里。此外,由于每个,所以DETR中对可视化的注释:( slots就是100个查询中的一个 )这里三种预测pattern可能相同也可能不同。

2023-09-22 18:05:33 463

原创 Conditional DETR(ICCV 21)

加速detr收敛(50 epoch收敛)

2023-09-21 22:29:02 343

原创 AI计算病理学(wsi,因果)

双向若监督知识蒸馏WSI分类。

2023-09-21 21:28:36 208

原创 Deformable DETR(2020 ICLR)

detr训练epochs缩小十倍,小目标性能更好。

2023-09-21 21:21:17 261

原创 对比学习综述

代理任务:Instance Discrimination, predictive, multi-view, multi-modal目标函数:NCE, InfoNCE, 和其他变体一个 encoder + memory bank (Inst Disc);一个 encoder (Invariant Spread);一个 encoder + 一个 auto regressive (CPC);多个 encoders (CMC)任务类型:图像,音频,文字,强化学习等。

2023-07-15 00:50:35 300

原创 DETR几个知识点

匈牙利匹配过程是不更新梯度的。

2023-07-13 22:57:51 148

原创 GNN/GCN

假如对顶点做预测:二分类:对每个顶点进入输出维度为2的MLP,softmax,注意,

2023-07-13 22:56:41 111

原创 EfficientNet论文笔记

通过NAS平衡了channel,depth,resolution,发现在相同的FLOPs下,同时增加 depth和 resolution的效果最好。数据集效果小于resolution怎么办?

2023-07-13 15:20:03 2112

原创 目标检测框架

图来源:BV1AM4y187yR本文的框架是在pytorch/tensorflow等框架上进一步的封装。

2023-07-04 21:32:24 258

原创 Roi pooling 和 RoiAlign

注意:RoI在上参考:https://blog.csdn.net/qq_29598161/article/details/108137399。

2023-05-31 12:22:48 61

原创 Transformers are Graph Neural Networks

Transformers就是GNNs原文:https://graphdeeplearning.github.io/post/transformers-are-gnns/文章翻译,主要是给自己看的。

2023-05-29 01:11:24 164

原创 对比学习MocoV1

队列(样本不用做梯度回传),移动平均编码器(字典里特征尽量保持一致,训练过程中发现很大一致的字典对无监督对比学习有好处))linear protocol:骨干网络预训练好了,用到其他数据集时backbone freeze,只学FC层,间接证明特征提取的好不好全面的在视觉领域比有监督好。

2023-05-24 22:49:49 331

原创 SENET论文笔记注意力机制

Squeeze-and-Excitation Networks 2019SE block,卷积注意力

2022-12-05 17:00:59 1336

原创 Blast算法初探 Basic Local Alignment Search Tool

BLAST是一种启发式的算法, 也就是说,它并不确保能找到最优解,但尽力在更短时间内找到足够好的解全局比对

2022-11-25 15:43:39 929

原创 ResNext论文笔记,分组卷积的组数,简化模型

ResNext论文笔记,分组卷积的组数,简化模型

2022-11-24 16:39:37 607

原创 DenseNet论文笔记

densetnet论文笔记,密集连接dense连接

2022-11-21 23:08:41 800

原创 Xception&深度可分离卷积-论文笔记

Xception&深度可分离卷积,Inception介于传统卷积核深度可分离卷积之间,深度可分离卷积可以看作有很多支路的Inception。1.文章思考的角度很深入,从空间和通道的相关性对卷积进行了进一步的思考2.深度可分离卷积不一定是最好的,但空间和通道的解耦的思想很好3.解耦思想。

2022-11-15 22:50:59 1602

原创 Inception v4&Inception-ResNet-V1V2论文笔记

Inceptionv4,Inception-resnet-v1&v2主要工作是把inception模型加宽加深,resnet版本的加残差文章点到不用残差连接也能训练深模型(Inception-v4)

2022-11-13 22:17:39 696

原创 Inception v3 通用设计原则、分解卷积、不对称卷积、下采样模块、label smoothing

通过增加模型大小和增加参数数量可以提升模型性能,但是要考虑计算资源,模型轻量化,兼顾计算效率,提出了分解卷积和label smoothing。

2022-11-11 16:20:04 1316

原创 softmax&Cross Entropy Loss

softmax,cross entropy loss,交叉熵损失函数

2022-11-11 15:52:07 441

原创 Inception v2&Batch Normalization论文阅读笔记

BN,batch normalization,inceptionv2,训练深度神经网络很复杂,因为每层的输入分布在训练期间都会变化,因为上一层的参数变了。因此网络需要更低的学习率和更小心的初始化而拖慢了训练,训练用饱和非线性的模型变得更难。这种现象叫做ICS。由于神经网络参数的不断变化,在每次迭代时每层的输入数据都服从不同的分布,这种现象叫内部协变量漂移。Z[L]=W[L]∗A[L−1]+b[L](线性变化层)A[L]=g[L](Z[L])(非线性变化/激活函数层)

2022-11-07 20:06:24 243 1

原创 注意力机制&RNN

心理学认为人通过随意线索核不随意鲜果选择注意点注意力机制中,通过query(随意线索)和key(不随意线索)有偏向性的选择输入可以写作f(x)=Σiα(x,xi)yi,α(x,xi)距离权重。

2022-11-03 21:40:26 678

原创 Mask R-CNN论文笔记

mask rcnn论文笔记,roiAlign,mask分支,双线性插值

2022-10-29 17:15:52 680 1

原创 GoogLeNet (Inception)v1论文笔记

提出了inception结构,旨在提升网络内的计算资源利用率。可以在计算开销不变的情况下增加网络的深度和宽度。decisions were based on 赫布法则和对于multi-scale 处理的直觉。multi-scale:用多种尺度的卷积核并行处理,之后汇总1.稀疏性很重要。2.可以学习Inception的稀疏结构,通过横向增加层来增加宽度,适应现代硬件的并行计算的特性。3.在设计模型的时候要注重计算复杂度和内存占用,除了提升精度之外还要注重模型在真实场景的可用性。

2022-10-27 15:53:12 666 1

原创 线性回归d2l

d2l线性回归 sgd实现

2022-10-27 14:16:16 386

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除