Fulin_Gao-CSDN博客

原创【量化部署】AWQ in MLSys 2024

AWQ in MLSys 2024：该方法是一个仅量化权重的方法（W4A16），AWQ认为只有极少部分（1%）模型权重是十分重要的，在量化时应该着重保护它们。AWQ根据校准数据输入模型后得到的激活值的量级来锁定重要权重，通过放大这些权重来实现对他们的保护，放大因子是对应激活量级的alpha次方。

2024-09-07 16:24:16 1312 3

原创【多模态大模型】LLaMA in arXiv 2023

LLaMA：该方法在Transformer的基础上增加了Pre-normalization (RMSNorm)、SwiGLU activation function (SwiGLU)、Rotary Embeddings (RoPE)、FlashAttention。

2024-08-15 09:39:28 1353

原创【多模态大模型】FlashAttention in NeurIPS 2022

FlashAttention: 该方法提出将Q、K、V拆分为若干小块，使执行注意力时不需要频繁进行读写操作，而是每个小块只进行一次读写，从而提升注意力的执行速度。

2024-08-10 13:05:16 1203

原创【多模态大模型】 BLIP-2 in ICML 2023

BLIP-2：该方法分别使用冻结的图像编码器（ViT-L/14、 ViT-g/14）和大语言模型（OPT、FlanT5）进行图像特征提取和文本特征提取与生成；提出Q-Former连接图像编码器和大语言模型；提出两阶段预训练策略分别提升模型特征学习和视觉到语言的生成学习能力。

2024-08-03 17:34:49 1234

原创【多模态大模型】 BLIP in ICML 2022

BLIP：该方法分别使用ViT和BERT进行图像和文本特征提取；提出使用image-text contrastive learning (ITC)损失、image-text matching (ITM)损失、Language Modeling (LM)损失进行模型优化；提出Captioning and Filtering (CapFilt)生成并过滤从网络上获取的图像-文本对。

2024-07-30 23:07:19 1254

原创【多模态大模型】 ALBEF in NeurIPS 2021

ALBEF：该方法使用ViT进行图像特征提取，提出将BERT分两部分，一部分进行文本特征提取，另一部分进行图像-文本交互的特征提取；提出使用image-text contrastive learning损失、masked language modeling损失、image-text matching损失进行模型优化；提出Momentum Distillation策略以一个通过exponential moving average的网络生成软伪标签提供另一个视角的优化方向。

2024-07-28 19:02:19 1870

原创【特征匹配】OmniGlue in CVPR 2024

OmniGlue：使用冻结的SuperPoint和经DINOv2预训练的ViT-B/16获取关键点、描述符、特征图；以特征图为指导构建图像内、图像间的连接图；以连接图为依据进行mask并依次执行自注意力、交叉注意力来优化描述符；对优化后的描述符计算两两之间

2024-07-16 22:12:06 1373

原创【自监督学习】iBOT in ICLR 2022

iBOT：对于一张图片，该方法首先进行两次全局裁剪与增强得到两张全局视图，之后进行随机mask再产生两张带mask的全局视图，并分别送入教师和学生网络；学生与教师网络均有两个映射头，一个用于映射$[\text{CLS}]$，另一个用于映射特征图，之后以两个网络的输出一致性为损失进行学生网络的更新；教师网络由指数移动平均更新，还采用了中心化和锐化操作避免模式崩溃。

2024-07-13 13:09:45 1389 10

原创【自监督学习】DINO in ICCV 2021

DINO：对于一张图片，该方法首先进行全局和局部的裁剪与增强并分别送入教师和学生网络，之后以两个网络的输出一致性为损失进行学生网络的更新，另外教师网络由指数移动平均更新，还采用了中心化和锐化操作避免模式崩溃。

2024-07-10 21:33:23 1301

原创【开放集目标检测】Grounding DINO

Grounding DINO：该方法融合了文本和图像两个模态的数据，实现了开放集目标检测，即给定一个文本提示，自动框出目标所在，该目标可以是训练集中没有的类别。该方法主要通过特征增强模块、语言指导查询选择模块、跨模态解码模块实现上述功能。

2024-07-07 22:40:14 6321 1

原创【目标检测】DINO

DINO：提出对比去噪训练方法，相比原DN-DETR中的去噪训练方法引入了负查询来避免重复的和不期望的预测；提出混合查询选择方法，相比原Deformable DETR中的查询选择方法移除了由编码器输出初始化解码器内容查询的部分；提出向前看两层的锚框更新方法，相比原Deformable DETR中向前看一层的锚框更新方法将梯度更新扩展到了前一层。

2024-07-03 22:21:13 3691 1

原创【目标检测】DN-DETR

DN-DETR: 指出DETR收敛慢的另一个主要原因为二分图匹配的不稳定性，提出对真实目标的锚框信息和标签信息施加噪声并将其喂入解码器中，使解码器进行去噪操作的训练方式。去噪部分引入了真实目标信息且不需要二分图匹配，所以有利于原始匹配部分的稳定从而加速收敛。

2024-06-30 18:02:28 1506

原创【目标检测】DAB-DETR

DAB-DETR：将Decoder中Query的角色解耦为图像内容和物体位置，明确了DETR收敛慢的原因在于Query的物体位置部分没有提供目标位置的先验；提出输入位置先验并逐层微调的策略提升模型收敛速度，提出注意力调制方案使注意力可以适应不同形状的目标，提出缩小Sinusoidal位置编码时的Temperature使注意力时Query更加关注局部区域。

2024-06-23 19:27:37 1523

原创【关键点检测和描述】SuperPoint

SuperPoint提出Homographic Adaptation策略，提升模型从虚拟数据迁移到真实数据的表现；提出自监督训练的双分支网络框架，无需人工标记真实数据的关键点并能够同时实现关键点检测和描述符生成。

2024-06-18 23:24:04 1599 3

原创【机器学习】L1、L2正则化

L1正则化能够通过使模型稀疏化达到降低模型复杂度的作用。这种稀疏化特性使它能够作为一种特征选择策略，适合在高维且特征相关性不强的场景中使用。L2正则化能够通过将各项权重系数优化的很小达到降低模型复杂度的目的。它能够减少单个特征的在模型中的作用，避免某个特征主导整个预测方向。L2正则化项是可微的，优化计算效率更高，适合处理低维且特征间具有强相关性的场景。

2024-05-18 20:08:10 4311

原创【图像识别】Swin Transformer

Swin Transformer提出滑动窗口自注意力 (Shifted Window based Self-Attention) 解决Vision Transformer输入高分辨率图像注意力模块计算复杂度高的问题。该博文包括Swin Transformer的主要概念，以图表形式直观的展示了各个组件的流程。

2024-05-10 12:45:53 1417

原创【目标检测】Deformable DETR

Deformable DETR 提出多尺度可变形注意力 (Multi-scale Deformable Attention) 解决 DETR 收敛速度慢、特征图尺度单一等问题。

2024-05-06 16:34:44 2543 3

原创【目标检测】DEtection TRansformer (DETR)

DETR：无proposal（R-CNN系列）、无anchor（YOLO系列）、无NMS的、端到端的目标检测方法。

2024-05-02 10:40:37 1923

原创【深度学习】位置编码

Transformer、DETR、Swin Transformer中的位置编码

2024-04-28 18:26:19 2138

原创【深度学习】Dropout、DropPath

Dropout、DropPath概念、作用、代码

2024-04-21 22:57:05 3715 1

原创【图像识别】Vision Transformer

Vision Transformer (ViT) 结构简介

2024-04-19 16:59:43 1103

原创【深度学习】Attention、Self-Attention、Multi-Head Self-Attention

Attention、Self-Attention、Multi-Head Attention概念、代码

2024-04-18 16:49:30 1232

原创【目标检测】Focal Loss

Focal Loss概念、作用

2024-04-16 20:27:42 1074

原创【深度学习】BatchNorm、LayerNorm

BatchNorm、LayerNorm的概念、作用、实现

2024-04-14 23:18:53 10965 2

原创【目标检测】NMS、SoftNMS

NMS、Soft-NMS的概念、步骤与实现

2024-04-05 15:17:52 1521

原创【目标检测】IoU、GIoU、DIoU、CIoU、EIoU

IoU、GIoU、DIoU、CIoU、EIoU的概念、计算方法、pytorch代码

2024-04-04 12:25:46 1053

原创【Few-Shot Incremental Learning】Semantics-Driven Generative Replay in ACM MM 2022 个人理解

Semantics-Driven Generative Replay for Few-Shot Class Incremental Learning: 该工作重心在使GAN能够在少样本场景下学习上，引入语义映射模块是主要贡献，灾难性遗忘通过原型扩充、保留和蒸馏损失避免。

2023-12-26 22:13:35 1074 3

原创【Few-Shot Incremental Learning】SAVC in CVPR 2023 个人理解

Learning with Fantasy: Semantic-Aware Virtual Contrastive Constraint for Few-Shot Class-Incremental Learning in CVPR 2023的重心在特征提取上，通过Fantasy Set进行数据增强和采用MoCo的训练策略进行对比学习得到一个强大的特征提取器是主要贡献。

2023-12-21 16:29:45 2043

原创【Out-of-Distribution Detection】Evidential Deep Learning in NeurIPS 2018 个人理解

核心思想是将分类器的概率输出视为一个狄利克雷分布（Dirichlet Distribution）并替换，之后引入两个损失分别负责保证预测结果准确性和提升被错误分类的样本的不确定性。

2023-12-18 23:33:52 1932 2

原创【Few-Shot Incremental Learning】ALICE in ECCV 2022 个人理解

Few-Shot Class-Incremental Learning from an Open-Set Perspective: 利用初始样本充足的训练数据训练一个强大的特征提取器，根据余弦相似度以最近类均值（Nearest Class Mean, NCM）规则进行分类。

2023-12-15 20:45:56 1373

原创【Incremental Learning】Exploring Example Influence in Continual Learning in NIPS 2022 个人理解

数据/任务依次到来，新的数据/任务到来后旧的就不再可获取，要求模型在学习新数据/任务的同时不要忘记旧数据/任务。

2023-07-07 21:41:44 282 1

原创【Estimation of the Number of Clusters】On the True Number of Clusters in a Dataset in AAAI 2019 个人理解

估计无标签数据的类别数量k并聚类。

2023-06-28 19:38:25 283 1

原创【Estimation of the Number of Clusters】Dip-means in NIPS 2012 个人理解

估计无标签数据的类别数量k并聚类。

2023-06-21 18:52:02 440

原创【Estimation of the Number of Clusters】PG-means: learning the number of clusters in data in NIPS 个人理解

估计无标签数据的类别数量k并聚类。

2023-06-20 09:02:59 167 1

原创【Estimation of the Number of Clusters】G-means: Learning the k in k-means in NIPS 2003 个人理解

假设一个簇的数据服从同一个高斯分布，给定预估的类别数下界，从下界开始做一次$k$-means，再对每个簇进行$k$-means（$k=2$）得到两个簇中心，连接两个簇中心得投影向量，计算该簇所有样本在投影向量上的投影并将投影归一化，之后通过Anderson-Darling检验判断$k$应该等于2还是1，如此往复直至所有检验都不接受进一步的分割。

2023-06-05 15:45:24 220

原创【Estimation of the Number of Clusters】X-means in ICML 2000 个人理解

估计无标签数据的类别数量并聚类。

2023-06-02 19:42:23 498

原创【Novel Category Discovery】A Unified Objective for Novel Class Discovery in ICCV 2021 个人理解

给定一个数据集，其中部分样本有标签（可认为它们属于已知类），其余样本无标签（可认为它们属于新类/未知类，未知类与已知类不重叠），要求模型保留对已知类的分类能力同时对无标签样本进行聚类，或称新类发现（Novel Category Discovery，NCD）。

2023-05-31 09:59:25 513 1

原创【Novel Category Discovery】Parametric Classification for Generalized Category Discovery 个人理解

给定一个数据集，其中部分样本有标签（这里称其为已知类），其余样本无标签（可能属于已知类也可能属于未知类），要求将无标签样本中属于已知类的样本正确分类，对属于未知类的样本进行聚类。

2023-05-29 12:31:17 860 13

原创【Out-of-Distribution Detection】Mixup in NeurIPS 2019、CutMix in ICCV 2019、PixMix in CVPR 2022 个人理解

分布外检测（Out-of-Distribution Detection, OOD Detection），测试集中可能出现超出训练集样本分布的样本（可以是来自未知类的样本、被破坏的样本、异常样本等等），要求将这些样本隔离出来。

2023-05-19 20:52:59 791 1

原创【Open Set Recognition】Open Set Learning with Counterfactual Images in ECCV 2018 个人理解

开放集识别（Open Set Recognition, OSR），要求模型能够正确识别训练期间见过的类（已知类），同时能检测或拒绝没见过的类（未知类）。换句话说就是将测试集中属于已知类的样本正确分类，将属于未知类的样本（可能来自多个未知类）统一归为一个额外的类。

2023-05-15 16:36:46 685 1

空空如也

空空如也