Marlowee-CSDN博客

原创基于分数模型（Score Model）的classifier-guidance及classifier-free guidance的推导

基于分数模型的 classifier-guidance 和 classifier-free guidance 方法都是用来指导生成模型生成更符合特定条件的数据点。分数模型是一种能够估计数据分布梯度的模型，在扩散模型中尤为常见。对于 classifier-guidance，我们利用一个预训练的分类器来评估生成样本的概率密度，并据此调整生成过程中的梯度方向，以引导模型生成更符合所期望类别的样本。

2024-08-13 21:13:48 611

原创【论文阅读visual grounding】QRNet论文解读与关键代码实现

视觉定位（visual grounding or referring expression comprehension）任务的目标是在查询文本（Query Expression）和特定区域之间建立细粒度的联系，但是目前的方法主要使用查询无关的视觉骨干网抽取视觉特征，导致预训练的视觉编码器抽取到的特征和实际多模态推理需要的特征不一致，如论文的Fig. 1a所示。所以作者提出在视觉骨干网训练的同时注入文本信息(Fig. 1b)，让网络能够动态调整查询相关的区域，进而提升视觉定位性能。

2024-08-03 11:13:46 842

原创【多模态对比学习】我遇到的坑

本文是对过去几个月来利用对比学习的思想来优化多模态学习任务的思路的总结，主要包含以下几个方面：为什么要用对比学习、跨模态中对比学习怎么用、对比的过程中负样本是不是越多越好、要不要推远所有的负样本、样本之间的语义碰撞如何缓解、什么是负样本的“逃票”现象以及最重要的问题：如何学到一个高效的表征空间？

2024-03-30 12:45:19 2090 1

原创 InfoNCE Loss公式及源码理解

−1N∑i1Nlog⁡exp⁡qi⋅kiτ∑j1Nexp⁡qi⋅kj−τ−N1i1∑Nlog∑j1Nexpτqi⋅kj−expτqi⋅kiNNN是样本的数量qiq_iqi是查询样本iii的编码向量kik_{i+}ki是与查询样本iii相对应的正样本的编码向量ki−k_{i-}ki−是与查询样本i。

2023-11-21 21:58:46 13926 4

原创【备忘录】英译汉接口

百度借口英译汉

2023-09-13 16:57:25 255

原创【代码实现】DETR原文解读及代码实现细节

宏观上来说，DETR主要包含三部分：以卷积神经网络为主的骨干网（CNN Backbone）、以TRM(Transformer)为主的特征抽取及交互器以及以FFN为主的分类和回归头，如DETR中build()函数所示。DETR最出彩的地方在于，它摒弃了非端到端的处理过程，如NMS、anchor generation等，以来端到端建模目标检测过程，并且将Transformer引入到目标检测中，打开新领域的大门）。

2023-09-04 21:12:47 2332 1

原创【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

本文介绍了一种名为ALBEF的高效视觉语言模型，采用了对比学习预训练的方式，能够学习到图像和文本之间的丰富关系，为视觉问答、图像分类、图像生成等下游任务提供更好的表征。ALBEF主要由三部分组成：image encoder、text encoder&multimodal encoder、momentum model。它的预训练目标主要包括对比损失、掩码语言重建任务和图像文本匹配任务的损失函数。此外，作者还提出了一种Momentum Distillation的方法，用于从动量模型生成的伪目标中学习，以便有效学

2023-04-13 21:22:53 3008 1

原创【备忘录】torch171+cu110配置apex

基于torch171+cu110、torchvision082+cu110和torchaudio072的apex安装教程

2023-03-14 09:41:13 1417

原创 YOLOv7 Backbone| 原文源码详解

YOLOv7Backbone原文源码解读

2022-12-06 23:28:47 9950 2

原创【NLP Learning】Transformer Encoder续集之网络结构源码解读

这篇文章我们主要从Transformer的Encoder源码入手，读懂Encoder的结构

2022-11-17 09:20:17 439

原创【PytorchLearning】Dropout | 内部机制及代码复现

Dropout内部机制及源码实现

2022-11-03 20:26:52 1296

原创【PytorchLearning】NLP入门笔记之手写Transformer Encoder内部机制

本文主要从Transformer Encoder中Word embedding生成、Position embedding机制和self-attention中的mask机制三个方面的源码及原理进行解读

2022-11-01 20:16:34 597

原创 OpenPAI调研手册

OpenPAI调研

2022-10-24 15:49:14 2052

原创概率论 | 联合熵、条件熵、互信息之间的表示、关系及大小

联合熵、条件熵、互信息之间的关系及大小

2022-10-20 20:36:31 1778

原创 LeetCode | 856括号分数

力扣856括号分数

2022-10-09 10:16:41 212

原创 LeetCode每日一题 | 优势洗牌

田忌赛马Python3

2022-10-08 16:41:55 689

原创 CVPR 2022 | HorNet：递归门控卷积的高效高阶空间相互作用

HorNet文献笔记

2022-10-04 22:05:26 4234 2

原创【ViT详解】Vision Transformer网络结构及代码解读

Vit网络结构及源码详解

2022-08-30 21:18:13 4246 2

原创【开源AI平台】Determined调研

Determined 是一个开源深度学习训练平台，本文综合调研了DeterminedAI

2022-08-17 21:26:50 2802 1

原创 NLP Learning | 初识NLP

本文从NLP的pipeline入手，介绍了几个集成小工具，详解了NLP数据预处理及词向量转化部分

2022-07-12 20:23:06 1827

原创【PytorchLearning】基于 UNet 的肺部影像语义分割案例保姆教程

基于UNet的肺部CT影像分割教程

2022-06-13 11:33:08 5782 8

原创【CVPR2022】QueryDet论文精读

QueryDet论文精读

2022-06-03 22:47:12 3144 8

原创【Python自动化】PDF表格内容转化为Excel

PDF表格转化生成Excel

2022-05-30 20:44:28 4673 6

原创 YOLOv5模型改进策略源码示例

YOLOv5网络结构改进详解

2022-05-19 09:19:17 3394 9

原创【注意力机制集锦2】BAM&SGE&DAN原文、结构、源码详解

视觉注意力机制领域BAM及DAN的原文、结构、源码解读

2022-05-14 21:58:30 6449 2

原创【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一

本文从原文、网络结构、代码实现三个方面系统总结了SENet、SKNET、CBAM三种注意力机制

2022-05-08 22:37:14 11506 1

原创【视觉注意力机制集锦】引言

视觉注意力机制集锦之引言1 注意力机制1.1 注意力机制简介卷积神经网络具有很强的拟合数据的能力，但是由于优化算法和计算能力的限制，在实践中，卷积网络很难达到通用近似的能力。特别是在处理规模较大的输入数据，实现复杂任务时，计算能力仍可能成为模型的瓶颈。卷积网络中的局部连接的卷积结构、池化层等设计本身可以用来简化网络结构、缓解模型复杂度和表达能力的矛盾。针对网络模型的任务，我们需要进行进一步的操作，可以在不过多增加模型复杂度的同时提高模型的表达能力。神经网络中，可以存储的信息量称为网络容量，显然，网络

2022-05-05 09:18:36 917

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

算法性能的比较数据集.zip

牛只姿态检测数据集（已标注）.zip

三维图形变换.exe

Human Pose Estimation Overview.pptx

空空如也