KC1B-CSDN博客

原创 Adobe Illustrator如何在图片快速插入latex公式

Adobe Illustrator没法直接输入latex公式，也没有公式的字体。

2024-10-16 19:34:36 1732 1

原创 PICKLE:gpu调用错误

问题：明明写了cuda:0仍然在开始时会调用gpu1原因：使用pickle.load的文件保存时，tensor就是在gpu1上，于是在load时pickle也直接读到gpu1上解决：pickle保存时换到gpu0，或者提取的模型移到gpu0上

2024-02-27 19:17:04 559

原创解决：RuntimeError: Expected all tensors to be on the same device, but found at least two devices

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:0

2023-11-24 20:24:07 3415

原创解决：UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars；

UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;will instead unsqueeze and return a vector.

2023-11-24 20:14:37 1360

原创 FD-Align论文阅读

主要工作是针对微调的和之前的prompt tuining，adapter系列对比。

2023-11-12 21:46:45 571

论文是为了充分利用单模态和多模态，充分利用单模态特征用自监督（SIMSAM和MLM），多模态用图像文本对比学习实现；一个图片的文本描述大部分都是集中在，作者使用RRC得到一个图像的局部区域进行实现；一个图片有多种描述方式，提出用最近邻文本检索得到更多文本监督。（i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2）在SLIP基础上新增一个文本域的自监督，即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。

2023-11-12 21:16:34 683

原创 CLIP Surgery论文阅读

MnormresizereshapeFi2Fiˉ⋅Ft2Ft⊤重点是CLIP的图可视化，上面是CLIP Surgery可视化的公式。

2023-11-06 17:10:25 2358 3

原创 MolFormer分子预训练模型

molformer分子预训练语言模型

2023-11-01 21:53:38 421

原创 ESM蛋白质语言模型系列

第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b第二篇《MSA Transformer》在ESM-1b的基础上作出改进，将模型的输入从单一蛋白质序列改为MSA矩阵，并在Transformer中加入行、列两种轴向注意力机制，对位点分别计算第个序列和第个对齐位置的影响，充分利用二维输入的优势。

2023-10-29 22:29:45 9331 1

原创 GLIP，FLIP论文阅读

1.图像端引入MAE的随机MASK，image encoder只处理未mask的patches（和之前的MAE方法一致），减少了输入序列长度加速训练，减少memory开销。text端没引入mask是因为text信息比较dense（图片信息比较稀疏），mask掉效果反而不好，之后是选择mask掉textpadding的地方提升了精度。2.做了三个方面的scale：说明model和data的scale还是很重要的，不同数据集相同大小也会对模型造成影响。

2023-10-23 19:22:16 655

原创多模态论文串讲

朱老师画的多模态近期脉络FLIP论文：CLIP基础上用了MAE思想，没mask的当作token，减少序列长度，值得看MetaLM PaLi做什么由prompt决定，调整prompt决定任务调整输出其他：Unified IO Uniperceiver1，2，uniperceiverMOE。

2023-10-17 20:13:45 866

原创 CLIP和改进工作

CLIP 改进方向语义分割Lseg、GroupViT目标检测ViLD、GLIP v1/v2视频理解VideoCLIP、CLIP4clip、ActionCLIP图像生成VQGAN-CLIP、CLIPasso、CLIP-Draw多模态下游任务VL Downstream其他prompt enginering（CoOp等）depthCLIP、pointCLIP（点云）、audioCLIP（音频）数据集4个亿论文标题中有一个重要的点——自然语言监督。这说明 CLIP 是涉及文字和图片的多模态领

2023-10-16 22:35:39 1665

原创 DINO（ICLR 2023）

DINO发展：Conditional DETR->DAB-DETR（4D,WH修正）DN-DETR（去噪训练，deNoising 稳定匹配过程）Deformable DETR（变体1：two-stage，encoder输出经过FFN分类头替换object query，变体2：box迭代细化）论证了DETR类在大数据集上的可扩展性，使用大backbone大dataset和SOTA比较。

2023-09-24 18:26:49 408

原创 DN-DETR（CVPR 2022）

导致了同一个图像，query在不同时期会对不同对象进行匹配DN-DETR在真实的GT上添加噪声：xywh，label。

2023-09-24 00:41:58 399

原创 DAB-DETR

贡献：明确了不是由于learnable queries导致的收敛缓慢4D anchor。

2023-09-23 15:21:13 296

原创 Anchor DETR

在以前DETR中，目标的查询是一组可学习的embedding。然而，（因为是随机初始化的），所以也不能解释它最终将集中在哪里。此外，由于每个，所以DETR中对可视化的注释：（ slots就是100个查询中的一个）这里三种预测pattern可能相同也可能不同。

2023-09-22 18:05:33 908

原创 Conditional DETR（ICCV 21）

加速detr收敛（50 epoch收敛）

2023-09-21 22:29:02 508

原创 AI计算病理学(wsi,因果)

双向若监督知识蒸馏WSI分类。

2023-09-21 21:28:36 417

原创 Deformable DETR（2020 ICLR）

detr训练epochs缩小十倍，小目标性能更好。

2023-09-21 21:21:17 371

原创对比学习综述

代理任务：Instance Discrimination, predictive, multi-view, multi-modal目标函数：NCE, InfoNCE, 和其他变体一个 encoder + memory bank (Inst Disc);一个 encoder (Invariant Spread);一个 encoder + 一个 auto regressive (CPC);多个 encoders (CMC)任务类型：图像，音频，文字，强化学习等。

2023-07-15 00:50:35 419

原创 DETR几个知识点

匈牙利匹配过程是不更新梯度的。

2023-07-13 22:57:51 222

原创 GNN/GCN

假如对顶点做预测：二分类：对每个顶点进入输出维度为2的MLP，softmax，注意，

2023-07-13 22:56:41 174

原创 EfficientNet论文笔记

通过NAS平衡了channel，depth，resolution，发现在相同的FLOPs下，同时增加 depth和 resolution的效果最好。数据集效果小于resolution怎么办？

2023-07-13 15:20:03 2218

原创目标检测框架

图来源：BV1AM4y187yR本文的框架是在pytorch/tensorflow等框架上进一步的封装。

2023-07-04 21:32:24 394

原创 Roi pooling 和 RoiAlign

注意：RoI在上参考：https://blog.csdn.net/qq_29598161/article/details/108137399。

2023-05-31 12:22:48 97

原创 Transformers are Graph Neural Networks

Transformers就是GNNs原文：https://graphdeeplearning.github.io/post/transformers-are-gnns/文章翻译，主要是给自己看的。

2023-05-29 01:11:24 253

原创对比学习MocoV1

队列（样本不用做梯度回传），移动平均编码器（字典里特征尽量保持一致，训练过程中发现很大一致的字典对无监督对比学习有好处））linear protocol：骨干网络预训练好了，用到其他数据集时backbone freeze，只学FC层，间接证明特征提取的好不好全面的在视觉领域比有监督好。

2023-05-24 22:49:49 459

原创 SENET论文笔记注意力机制

Squeeze-and-Excitation Networks 2019SE block，卷积注意力

2022-12-05 17:00:59 1548

原创 Blast算法初探 Basic Local Alignment Search Tool

BLAST是一种启发式的算法，也就是说，它并不确保能找到最优解，但尽力在更短时间内找到足够好的解全局比对

2022-11-25 15:43:39 1155

原创 ResNext论文笔记，分组卷积的组数，简化模型

ResNext论文笔记，分组卷积的组数，简化模型

2022-11-24 16:39:37 771

原创 DenseNet论文笔记

densetnet论文笔记，密集连接dense连接

2022-11-21 23:08:41 938

原创 Xception&深度可分离卷积-论文笔记

Xception&深度可分离卷积,Inception介于传统卷积核深度可分离卷积之间，深度可分离卷积可以看作有很多支路的Inception。1.文章思考的角度很深入，从空间和通道的相关性对卷积进行了进一步的思考2.深度可分离卷积不一定是最好的，但空间和通道的解耦的思想很好3.解耦思想。

2022-11-15 22:50:59 1934

原创 Inception v4&Inception-ResNet-V1V2论文笔记

Inceptionv4，Inception-resnet-v1&v2主要工作是把inception模型加宽加深，resnet版本的加残差文章点到不用残差连接也能训练深模型（Inception-v4）

2022-11-13 22:17:39 816

原创 Inception v3 通用设计原则、分解卷积、不对称卷积、下采样模块、label smoothing

通过增加模型大小和增加参数数量可以提升模型性能，但是要考虑计算资源，模型轻量化，兼顾计算效率，提出了分解卷积和label smoothing。

2022-11-11 16:20:04 1754

原创 softmax&Cross Entropy Loss

softmax，cross entropy loss，交叉熵损失函数

2022-11-11 15:52:07 519

原创 Inception v2&Batch Normalization论文阅读笔记

BN，batch normalization，inceptionv2，训练深度神经网络很复杂，因为每层的输入分布在训练期间都会变化，因为上一层的参数变了。因此网络需要更低的学习率和更小心的初始化而拖慢了训练，训练用饱和非线性的模型变得更难。这种现象叫做ICS。由于神经网络参数的不断变化，在每次迭代时每层的输入数据都服从不同的分布，这种现象叫内部协变量漂移。Z[L]=W[L]∗A[L−1]+b[L](线性变化层)A[L]=g[L](Z[L])(非线性变化/激活函数层)

2022-11-07 20:06:24 333 1

原创注意力机制&RNN

心理学认为人通过随意线索核不随意鲜果选择注意点注意力机制中，通过query（随意线索）和key（不随意线索）有偏向性的选择输入可以写作f（x）=Σiα（x，xi）yi，α（x，xi）距离权重。

2022-11-03 21:40:26 811

原创 Mask R-CNN论文笔记

mask rcnn论文笔记，roiAlign，mask分支，双线性插值

2022-10-29 17:15:52 792 1

原创 GoogLeNet （Inception）v1论文笔记

提出了inception结构，旨在提升网络内的计算资源利用率。可以在计算开销不变的情况下增加网络的深度和宽度。decisions were based on 赫布法则和对于multi-scale 处理的直觉。multi-scale：用多种尺度的卷积核并行处理，之后汇总1.稀疏性很重要。2.可以学习Inception的稀疏结构，通过横向增加层来增加宽度，适应现代硬件的并行计算的特性。3.在设计模型的时候要注重计算复杂度和内存占用，除了提升精度之外还要注重模型在真实场景的可用性。

2022-10-27 15:53:12 750 1

原创线性回归d2l

d2l线性回归 sgd实现

2022-10-27 14:16:16 460

空空如也

Batch Normalization论文中的疑问