论文笔记
文章平均质量分 86
B1CK
脚踏实地脚踏实地
展开
-
GLIP,FLIP论文阅读
1.图像端引入MAE的随机MASK,image encoder只处理未mask的patches(和之前的MAE方法一致),减少了输入序列长度加速训练,减少memory开销。text端没引入mask是因为text信息比较dense(图片信息比较稀疏),mask掉效果反而不好,之后是选择mask掉textpadding的地方提升了精度。2.做了三个方面的scale:说明model和data的scale还是很重要的,不同数据集相同大小也会对模型造成影响。原创 2023-10-23 19:22:16 · 504 阅读 · 0 评论 -
DeCLIP 论文阅读
论文是为了充分利用单模态和多模态,充分利用单模态特征用自监督(SIMSAM和MLM),多模态用图像文本对比学习实现;一个图片的文本描述大部分都是集中在,作者使用RRC得到一个图像的局部区域进行实现;一个图片有多种描述方式,提出用最近邻文本检索得到更多文本监督。(i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2)在SLIP基础上新增一个文本域的自监督,即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。原创 2023-11-12 21:16:34 · 456 阅读 · 0 评论 -
ESM蛋白质语言模型系列
第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b第二篇《MSA Transformer》在ESM-1b的基础上作出改进,将模型的输入从单一蛋白质序列改为MSA矩阵,并在Transformer中加入行、列两种轴向注意力机制,对位点分别计算第个序列和第个对齐位置的影响,充分利用二维输入的优势。原创 2023-10-29 22:29:45 · 2903 阅读 · 1 评论 -
CLIP Surgery论文阅读
MnormresizereshapeFi2Fiˉ⋅Ft2Ft⊤重点是CLIP的图可视化,上面是CLIP Surgery可视化的公式。原创 2023-11-06 17:10:25 · 1155 阅读 · 1 评论 -
FD-Align论文阅读
主要工作是针对微调的和之前的prompt tuining,adapter系列对比。原创 2023-11-12 21:46:45 · 449 阅读 · 0 评论 -
MolFormer分子预训练模型
molformer分子预训练语言模型原创 2023-11-01 21:53:38 · 208 阅读 · 0 评论 -
DETR几个知识点
匈牙利匹配过程是不更新梯度的。原创 2023-07-13 22:57:51 · 137 阅读 · 0 评论 -
对比学习MocoV1
队列(样本不用做梯度回传),移动平均编码器(字典里特征尽量保持一致,训练过程中发现很大一致的字典对无监督对比学习有好处))linear protocol:骨干网络预训练好了,用到其他数据集时backbone freeze,只学FC层,间接证明特征提取的好不好全面的在视觉领域比有监督好。原创 2023-05-24 22:49:49 · 314 阅读 · 0 评论 -
EfficientNet论文笔记
通过NAS平衡了channel,depth,resolution,发现在相同的FLOPs下,同时增加 depth和 resolution的效果最好。数据集效果小于resolution怎么办?原创 2023-07-13 15:20:03 · 2085 阅读 · 0 评论 -
Roi pooling 和 RoiAlign
注意:RoI在上参考:https://blog.csdn.net/qq_29598161/article/details/108137399。原创 2023-05-31 12:22:48 · 57 阅读 · 0 评论 -
对比学习综述
代理任务:Instance Discrimination, predictive, multi-view, multi-modal目标函数:NCE, InfoNCE, 和其他变体一个 encoder + memory bank (Inst Disc);一个 encoder (Invariant Spread);一个 encoder + 一个 auto regressive (CPC);多个 encoders (CMC)任务类型:图像,音频,文字,强化学习等。原创 2023-07-15 00:50:35 · 281 阅读 · 0 评论 -
DAB-DETR
贡献:明确了不是由于learnable queries导致的收敛缓慢4D anchor。原创 2023-09-23 15:21:13 · 201 阅读 · 0 评论 -
Conditional DETR(ICCV 21)
加速detr收敛(50 epoch收敛)原创 2023-09-21 22:29:02 · 298 阅读 · 0 评论 -
AI计算病理学(wsi,因果)
双向若监督知识蒸馏WSI分类。原创 2023-09-21 21:28:36 · 165 阅读 · 0 评论 -
Transformers are Graph Neural Networks
Transformers就是GNNs原文:https://graphdeeplearning.github.io/post/transformers-are-gnns/文章翻译,主要是给自己看的。原创 2023-05-29 01:11:24 · 149 阅读 · 0 评论 -
多模态论文串讲
朱老师画的多模态近期脉络FLIP论文:CLIP基础上用了MAE思想,没mask的当作token,减少序列长度,值得看MetaLM PaLi做什么由prompt决定,调整prompt决定任务调整输出其他:Unified IO Uniperceiver1,2,uniperceiverMOE。原创 2023-10-17 20:13:45 · 430 阅读 · 0 评论 -
CLIP和改进工作
CLIP 改进方向语义分割Lseg、GroupViT目标检测ViLD、GLIP v1/v2视频理解VideoCLIP、CLIP4clip、ActionCLIP图像生成VQGAN-CLIP、CLIPasso、CLIP-Draw多模态下游任务VL Downstream其他prompt enginering(CoOp等)depthCLIP、pointCLIP(点云)、audioCLIP(音频)数据集4个亿论文标题中有一个重要的点——自然语言监督。这说明 CLIP 是涉及文字和图片的多模态领原创 2023-10-16 22:35:39 · 727 阅读 · 0 评论 -
DINO(ICLR 2023)
DINO发展:Conditional DETR->DAB-DETR(4D,WH修正)DN-DETR(去噪训练,deNoising 稳定匹配过程)Deformable DETR(变体1:two-stage,encoder输出经过FFN分类头替换object query,变体2:box迭代细化)论证了DETR类在大数据集上的可扩展性,使用大backbone大dataset和SOTA比较。原创 2023-09-24 18:26:49 · 224 阅读 · 0 评论 -
DN-DETR(CVPR 2022)
导致了同一个图像,query在不同时期会对不同对象进行匹配DN-DETR在真实的GT上添加噪声:xywh,label。原创 2023-09-24 00:41:58 · 242 阅读 · 0 评论 -
Anchor DETR
在以前DETR中,目标的查询是一组可学习的embedding。然而,(因为是随机初始化的),所以也不能解释它最终将集中在哪里。此外,由于每个,所以DETR中对可视化的注释:( slots就是100个查询中的一个 )这里三种预测pattern可能相同也可能不同。原创 2023-09-22 18:05:33 · 364 阅读 · 0 评论 -
Deformable DETR(2020 ICLR)
detr训练epochs缩小十倍,小目标性能更好。原创 2023-09-21 21:21:17 · 230 阅读 · 0 评论 -
SENET论文笔记注意力机制
Squeeze-and-Excitation Networks 2019SE block,卷积注意力原创 2022-12-05 17:00:59 · 1301 阅读 · 0 评论 -
ResNext论文笔记,分组卷积的组数,简化模型
ResNext论文笔记,分组卷积的组数,简化模型原创 2022-11-24 16:39:37 · 584 阅读 · 0 评论 -
DenseNet论文笔记
densetnet论文笔记,密集连接dense连接原创 2022-11-21 23:08:41 · 743 阅读 · 0 评论 -
Xception&深度可分离卷积-论文笔记
Xception&深度可分离卷积,Inception介于传统卷积核深度可分离卷积之间,深度可分离卷积可以看作有很多支路的Inception。1.文章思考的角度很深入,从空间和通道的相关性对卷积进行了进一步的思考2.深度可分离卷积不一定是最好的,但空间和通道的解耦的思想很好3.解耦思想。原创 2022-11-15 22:50:59 · 1566 阅读 · 0 评论 -
Inception v4&Inception-ResNet-V1V2论文笔记
Inceptionv4,Inception-resnet-v1&v2主要工作是把inception模型加宽加深,resnet版本的加残差文章点到不用残差连接也能训练深模型(Inception-v4)原创 2022-11-13 22:17:39 · 601 阅读 · 0 评论 -
Inception v3 通用设计原则、分解卷积、不对称卷积、下采样模块、label smoothing
通过增加模型大小和增加参数数量可以提升模型性能,但是要考虑计算资源,模型轻量化,兼顾计算效率,提出了分解卷积和label smoothing。原创 2022-11-11 16:20:04 · 1218 阅读 · 0 评论 -
Inception v2&Batch Normalization论文阅读笔记
BN,batch normalization,inceptionv2,训练深度神经网络很复杂,因为每层的输入分布在训练期间都会变化,因为上一层的参数变了。因此网络需要更低的学习率和更小心的初始化而拖慢了训练,训练用饱和非线性的模型变得更难。这种现象叫做ICS。由于神经网络参数的不断变化,在每次迭代时每层的输入数据都服从不同的分布,这种现象叫内部协变量漂移。Z[L]=W[L]∗A[L−1]+b[L](线性变化层)A[L]=g[L](Z[L])(非线性变化/激活函数层)原创 2022-11-07 20:06:24 · 237 阅读 · 1 评论 -
Mask R-CNN论文笔记
mask rcnn论文笔记,roiAlign,mask分支,双线性插值原创 2022-10-29 17:15:52 · 666 阅读 · 1 评论 -
RPN(Region Proposal Network)
Fast RCNN -RPN论文笔记原创 2022-10-09 12:17:22 · 1395 阅读 · 0 评论 -
VGG论文笔记
VGG论文内容原创 2022-10-02 20:34:02 · 1305 阅读 · 0 评论 -
AlexNet笔记
AlexNet内容笔记原创 2022-09-25 20:24:24 · 700 阅读 · 0 评论 -
FPN论文笔记
FPN阅读笔记,特征金字塔原创 2022-10-22 18:52:30 · 1711 阅读 · 1 评论 -
ResNet论文笔记
resnet论文笔记原创 2022-10-15 17:38:52 · 277 阅读 · 0 评论 -
GoogLeNet (Inception)v1论文笔记
提出了inception结构,旨在提升网络内的计算资源利用率。可以在计算开销不变的情况下增加网络的深度和宽度。decisions were based on 赫布法则和对于multi-scale 处理的直觉。multi-scale:用多种尺度的卷积核并行处理,之后汇总1.稀疏性很重要。2.可以学习Inception的稀疏结构,通过横向增加层来增加宽度,适应现代硬件的并行计算的特性。3.在设计模型的时候要注重计算复杂度和内存占用,除了提升精度之外还要注重模型在真实场景的可用性。原创 2022-10-27 15:53:12 · 649 阅读 · 1 评论