- 博客(71)
- 资源 (4)
- 收藏
- 关注
原创 基于分数模型(Score Model)的classifier-guidance及classifier-free guidance的推导
基于分数模型的 classifier-guidance 和 classifier-free guidance 方法都是用来指导生成模型生成更符合特定条件的数据点。分数模型是一种能够估计数据分布梯度的模型,在扩散模型中尤为常见。对于 classifier-guidance,我们利用一个预训练的分类器来评估生成样本的概率密度,并据此调整生成过程中的梯度方向,以引导模型生成更符合所期望类别的样本。
2024-08-13 21:13:48 611
原创 【论文阅读visual grounding】QRNet论文解读与关键代码实现
视觉定位(visual grounding or referring expression comprehension)任务的目标是在查询文本(Query Expression)和特定区域之间建立细粒度的联系,但是目前的方法主要使用查询无关的视觉骨干网抽取视觉特征,导致预训练的视觉编码器抽取到的特征和实际多模态推理需要的特征不一致,如论文的Fig. 1a所示。所以作者提出在视觉骨干网训练的同时注入文本信息(Fig. 1b),让网络能够动态调整查询相关的区域,进而提升视觉定位性能。
2024-08-03 11:13:46 842
原创 【多模态对比学习】我遇到的坑
本文是对过去几个月来利用对比学习的思想来优化多模态学习任务的思路的总结,主要包含以下几个方面:为什么要用对比学习、跨模态中对比学习怎么用、对比的过程中负样本是不是越多越好、要不要推远所有的负样本、样本之间的语义碰撞如何缓解、什么是负样本的“逃票”现象以及最重要的问题:如何学到一个高效的表征空间?
2024-03-30 12:45:19 2090 1
原创 InfoNCE Loss公式及源码理解
−1N∑i1Nlogexpqi⋅kiτ∑j1Nexpqi⋅kj−τ−N1i1∑Nlog∑j1Nexpτqi⋅kj−expτqi⋅kiNNN是样本的数量qiq_iqi是查询样本iii的编码向量kik_{i+}ki是与查询样本iii相对应的正样本的编码向量ki−k_{i-}ki−是与查询样本i。
2023-11-21 21:58:46 13926 4
原创 【代码实现】DETR原文解读及代码实现细节
宏观上来说,DETR主要包含三部分:以卷积神经网络为主的骨干网(CNN Backbone)、以TRM(Transformer)为主的特征抽取及交互器以及以FFN为主的分类和回归头,如DETR中build()函数所示。DETR最出彩的地方在于,它摒弃了非端到端的处理过程,如NMS、anchor generation等,以来端到端建模目标检测过程,并且将Transformer引入到目标检测中,打开新领域的大门)。
2023-09-04 21:12:47 2332 1
原创 【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
本文介绍了一种名为ALBEF的高效视觉语言模型,采用了对比学习预训练的方式,能够学习到图像和文本之间的丰富关系,为视觉问答、图像分类、图像生成等下游任务提供更好的表征。ALBEF主要由三部分组成:image encoder、text encoder&multimodal encoder、momentum model。它的预训练目标主要包括对比损失、掩码语言重建任务和图像文本匹配任务的损失函数。此外,作者还提出了一种Momentum Distillation的方法,用于从动量模型生成的伪目标中学习,以便有效学
2023-04-13 21:22:53 3008 1
原创 【备忘录】torch171+cu110配置apex
基于torch171+cu110、torchvision082+cu110和torchaudio072的apex安装教程
2023-03-14 09:41:13 1417
原创 【NLP Learning】Transformer Encoder续集之网络结构源码解读
这篇文章我们主要从Transformer的Encoder源码入手,读懂Encoder的结构
2022-11-17 09:20:17 439
原创 【PytorchLearning】NLP入门笔记之手写Transformer Encoder内部机制
本文主要从Transformer Encoder中Word embedding生成、Position embedding机制和self-attention中的mask机制三个方面的源码及原理进行解读
2022-11-01 20:16:34 597
原创 【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一
本文从原文、网络结构、代码实现三个方面系统总结了SENet、SKNET、CBAM三种注意力机制
2022-05-08 22:37:14 11506 1
原创 【视觉注意力机制集锦】引言
视觉注意力机制集锦之引言1 注意力机制1.1 注意力机制简介卷积神经网络具有很强的拟合数据的能力,但是由于优化算法和计算能力的限制,在实践中,卷积网络很难达到通用近似的能力。特别是在处理规模较大的输入数据,实现复杂任务时,计算能力仍可能成为模型的瓶颈。卷积网络中的局部连接的卷积结构、池化层等设计本身可以用来简化网络结构、缓解模型复杂度和表达能力的矛盾。针对网络模型的任务,我们需要进行进一步的操作,可以在不过多增加模型复杂度的同时提高模型的表达能力。神经网络中,可以存储的信息量称为网络容量,显然,网络
2022-05-05 09:18:36 917
原创 【Transformer开山之作】Attention is all you need原文解读
Attention Is All You NeedTransformer原文解读与细节复现在Transformer出现以前,深度学习的基础主流模型可分为卷积神经网络CNN、循环神经网络RNN、图对抗神经网络GAN。而Transformer的横空出世,吸引了越来越多的研究者的关注:Transformer不仅在NLP领域取得了耀眼的成绩,近年来甚至一度屠榜CV领域的各大比赛,热度超前。所以,基于之前对Transformer的研究与理解,更基于对新技术的好奇与渴求,接下来的几篇文章我会从最经典的Tra
2022-05-01 15:49:49 18960
原创 YOLOv5的Backbone详解
本文从yolov5s入手,细致分析了yolov5s的网络配置文件参数、backbone部分、neck部分和最终的head部分,并结合网络结构图和源码对各模块进行了详细介绍
2022-03-20 20:07:26 49982 33
Human Pose Estimation Overview.pptx
2020-07-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人