夏日的盒盒-CSDN博客

原创视觉注意力机制——通道注意力、空间注意力、自注意力、交叉注意力

在计算机视觉领域，注意力机制（Attention Mechanism）已成为提升模型性能的关键技术之一。注意力机制通过模拟人类视觉的选择性注意力，能够在海量数据中自动聚焦于最相关的信息，从而提高模型的效率和准确性。下面将介绍通道注意力、空间注意力、自注意力和交叉注意力四种类型。

2024-07-15 10:52:38 8494 1

原创图像隐写综述（小白入门）

对图像隐写进行了总结，适合研一新生入门图像隐写！涉及到空间域隐写、频域隐写、评价标准、流行的隐写工具等等，并进行了展望。

2024-02-29 13:42:52 6825 2

原创 ICLR2024-强化学习+持续学习《CPPO: Continual Learning for Reinforcement Learning with Human Feedback》

强化学习从人类反馈（RLHF）的方法被广泛用于增强预训练语言模型（LM），使它们能更好地与人类偏好对齐。然而，现有的基于RLHF的LM在引入新查询或反馈时需要完全重新训练，因为人类的偏好可能在不同的领域或主题之间有所不同。现有的RLHF方法在引入新的查询或反馈时需要对语言模型（LM）进行重新训练，这在实际应用中往往因时间、计算成本和数据隐私问题而不可行。本文提出了CPPO（连续近端策略优化，Continual Proximal Policy Optimization），这是一种用于强化学习中人类反馈（Rei

2025-03-14 16:54:19 1252

原创 ICLR2024：强化学习+大语言模型实现机器人精细操作的任务《Eureka: Human-Level Reward Design Via Coding Large Language Models》

大规模语言模型（LLMs）在作为高级语义规划器进行序列决策任务方面表现出色。然而，利用它们学习复杂的低级操作任务，如熟练的笔旋转，仍然是一个未解决的问题。本文介绍了一个名为EUREKA的人类水平奖励设计算法，它利用大型语言模型（LLMs）来生成奖励函数，从而实现复杂任务的强化学习。EUREKA通过零样本生成、代码编写和上下文改进能力，对奖励代码进行进化优化，无需任务特定的提示或预定义奖励模板。在29个开源的强化学习环境中，EUREKA在83%的任务上超越了人类专家设计的奖励函数，平均归一化改进达到了52%。

2025-03-14 11:46:59 1091

原创 ICLR2024-强化学习+Diffusion《Training Diffusion Models with Reinforcement Learning》

扩散模型是一类灵活的生成模型，通常通过近似对数似然目标进行训练。然而，大多数扩散模型的使用场景并不直接关心似然，而是关注下游目标，如人类感知的图像质量或药物的有效性。本文研究了直接针对这些目标优化扩散模型的强化学习方法，提出了一种将去噪视为多步决策问题的方法，开发了更有效的策略梯度算法，即去噪扩散策略优化（DDPO）。实验证明，DDPO能够适应文本到图像扩散模型，以优化难以通过提示表达的目标，如图像可压缩性，以及来自人类反馈的目标，如美学质量。此外，DDPO还可以利用视觉语言模型的反馈改善提示与图像的对齐，

2025-03-13 17:54:24 1221

原创强化学习《初学者》--基础概念&贝尔曼公式

强化学习就是智能体根据当前的状态选择动作，之后在环境中会进入另一个状态并获得一定的奖励，通过多次迭代，最大化这个累计奖励。强化学习是一种机器学习方法，与监督学习和无监督学习不同。它并不依赖于标注数据，而是在一个环境中通过试错来学习最佳策略。这类似于小孩子通过尝试不同的行为来学习正确的做法。

2025-02-14 22:54:38 813 2

原创 AAAI2023《Controllable Image Captioning via Prompting》

文章提出了一种通过提示学习（prompt learning）嵌入到图像描述生成框架中的方法，以实现对图像描述的可控生成。具体来说，设计了一组提示来微调预训练的图像描述生成器，这些提示使模型能够吸收来自不同领域的风格化数据进行联合训练，且不会降低每个领域的性能。此外，文章还通过在连续词嵌入空间中优化可学习的向量来改进提示，避免了启发式提示工程的复杂性，并展现出优越的性能。在推理阶段，模型能够通过选择相应的提示来生成期望的风格化描述。

2025-01-10 17:20:24 1080

原创 ICCV2023《Transferable Decoding with Visual Entities for Zero-Shot Image Captioning》

ViECap模型的核心是训练一个语言模型，但这个语言模型在训练过程中结合了视觉信息（通过CLIP文本嵌入和实体感知硬提示）来生成与图像相关的描述。通过这种方式，ViECap能够在零样本设置中生成高质量的图像描述，并在跨域和低数据设置中表现出色。

2025-01-10 11:14:06 1069

原创 WACV2024《FUSECAP: Leveraging Large Language Models for Enriched Fused Image Captions》

视觉-语言预训练技术的出现促进了图像描述模型开发的实质性进展。然而，这些模型经常产生通用的标题，可能会忽略语义上重要的图像细节。这个限制可以追溯到图像-文本数据集；虽然它们的标题通常提供图像内容的一般描述，但它们经常忽略突出的细节。考虑到这些数据集的规模，手动重新注释是不切实际的，强调需要自动化方法。为应对这一挑战，本文利用现有的字幕，并探索使用“冻结”视觉专家，包括目标检测器、属性识别器和光学字符识别器（OCR），用视觉细节来增强它们。

2025-01-09 22:15:16 940

原创《SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation》AAAI2024

这篇论文介绍了一种名为SSMG（Spatial-Semantic Map Guided Diffusion Model）的新型扩散模型，旨在解决从用户指定的布局生成真实和复杂场景图像的问题。尽管文本到图像（T2I）生成模型取得了显著进展，但即使是长而复杂的文本描述也难以传达详细的控制。相比之下，布局到图像（L2I）生成因其细粒度控制而受到关注。现有方法将布局信息转换为标记或RGB图像以进行条件控制，导致对各个实例的空间和语义控制不足。

2024-12-26 16:26:50 1127

原创《Prompt-and-Transfer: Dynamic Class-Aware Enhancement for Few-Shot Segmentation》TPAMI2024

为了更有效地泛化到未见过的域（类），大多数少样本分割（FSS）将直接利用预训练的编码器，只微调解码器，特别是在当前的大型模型时代。然而，这种固定特征编码器往往与类别无关，不可避免地激活与目标类无关的对象。相比之下，人类可以毫不费力地专注于视线中的特定物体。文中模仿人类视觉感知模式，提出了一种新的、强大的提示驱动机制PAT (Prompt and Transfer)，该机制构建了一种动态的类感知提示范式来调整编码器，使其专注于当前任务中感兴趣的对象（目标类）。

2024-12-12 18:08:37 911

原创《ODIN: A Single Model for 2D and 3D Segmentation》CVPR2024

这篇论文介绍了ODIN（Omni-Dimensional INstance segmentation），一个能够同时处理2D RGB图像和3D点云的单模型，用于进行2D和3D的实例分割。ODIN采用Transformer架构，交替融合2D内视图和3D跨视图信息。该模型通过位置编码区分2D和3D特征操作，捕捉2D补丁标记的像素坐标和3D特征标记的3D坐标。ODIN在多个3D实例分割基准测试中取得了最先进的性能，并在2D COCO基准测试中展现了竞争力。

2024-12-05 11:34:52 1617

原创《Clustering Propagation for Universal Medical Image Segmentation》CVPR2024

这篇论文介绍了S2VNet，这是一个用于医学图像分割的通用框架，它通过切片到体积的传播（Slice-to-Volume propagation）来统一自动（AMIS）和交互式（IMIS）医学图像分割任务。S2VNet利用基于聚类的方法，通过将先前切片的聚类中心（centroids）作为后续切片的初始值，使用2D网络实现知识在不同切片间的传递。此外，S2VNet还能够处理多类交互，并且通过一种循环中心点聚合策略来提高对异常值的鲁棒性，并增强对先前切片线索的意识。

2024-12-05 10:01:51 949

原创《Tyche: Stochastic In-Context Learning for Medical Image Segmentation》CVPR2024

医学图像分割任务通常需要为每个新模态和生物医学领域训练新模型，这在资源和专业知识有限的生物医学研究和临床环境中是不切实际的。现有模型通常只提供一个分割解决方案，而实际上目标图像可能包含模糊区域，并没有单一正确的分割。顶部展示了人类注释者如何处理多种任务，并且不同的注释者通常会对同一图像产生不同的分割结果。中部展示了现有的自动化方法，这些方法通常是针对特定任务的，并且只为每个图像提供一个分割结果。底部展示了Tyche框架，它能够捕捉到不同注释者在多种模态和解剖结构上的分歧，而无需重新训练或微调。

2024-12-04 21:52:21 1142

原创《DiffusionDet: Diffusion Model for Object Detection》ICCV2023

本文提出了一种新的框架DiffusionDet，它将目标检测任务表述为从带噪声的边界框到目标边界框的去噪扩散过程（如图一所示）。在训练阶段，目标边界框逐渐扩散到随机分布，模型学习逆转这一加噪过程。在推理阶段，模型以渐进的方式细化一组随机生成的边界框以输出结果。在标准基准测试（包括MS-COCO和LVIS）上的广泛评估表明，DiffusionDet与以前建立的检测器相比，取得了有利的性能。这项工作在目标检测中带来了两个重要的发现：首先，随机边界框虽然与预定义的锚点或学习到的查询差异很大，但也是有效的目标候选；

2024-11-13 23:01:37 1433

原创《MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer》AAAI2024，CVPR2023

尽管这些模型最初是由UNet架构支撑的，但存在通过集成视觉Transformer机制来提高其性能的潜在途径。然而，简单地组合这两个模型会导致性能不佳。为了有效地将这两种前沿技术集成到医学图像分割中，本文提出了一种新的基于transformer的扩散框架，称为medsegdiv - v2。在具有不同图像模态的20个医学图像分割任务上验证了其有效性。通过综合评估，所提出方法证明了比之前最先进的（SOTA）方法的优越性。

2024-10-29 21:18:40 862 3

原创《MLP Can Be A Good Transformer Learner》CVPR2024

论文介绍了一种新颖的方法，通过选择性移除非必要的注意力层来简化视觉Transformer，并减少计算负载，其指导思想是基于熵的考虑。我们发现，对于底层的注意力层，其后续的多层感知器（MLP）层（即两个前馈层）可以诱发出相同的熵量。同时，伴随的MLP层由于其特征熵小于顶层块中的MLP层，因此未被充分利用。因此，我们提出通过将无信息的注意力层退化为其后续层相同的映射，将它们整合到后续层中，在某些Transformer块中只留下MLP。

2024-10-25 16:41:47 1081

原创《Location-Aware Self-Supervised Transformers for Semantic Segmentation》WACV2024

这篇论文介绍了一种用于语义分割的自监督预训练方法，名为LOCA（Location-Aware Self-Supervised Transformers）。该方法旨在通过结合位置感知的自监督学习来提升模型在语义分割任务上的表现。由于像素级标注的获取成本高昂，预训练成为了提高模型性能的关键步骤。然而，现有的预训练算法主要使用图像级目标，这些目标并不涉及空间信息，这在需要空间推理的下游任务中可能是次优的。

2024-10-18 10:27:23 1008

原创《Image Processing GNN: Breaking Rigidity in Super-Resolution》CVPR2024

这篇论文提出了一种名为Image Processing Graph Neural Networks (IPG) 的模型，旨在通过利用图的灵活性来突破超分辨率（Super-Resolution, SR）中的固有刚性问题。在现有的SR模型中，无论是基于卷积神经网络（CNNs）还是窗口注意力方法，每个像素都以固定的方式聚合相同数量的邻域像素，这限制了它们在SR任务中的有效性。IPG模型通过图的灵活性解决了这一问题，通过度灵活性、像素节点灵活性和空间灵活性来提升SR性能。

2024-10-11 21:33:32 1584

原创《Zero-TPrune: Zero-Shot Token Pruning through Leveraging of the Attention Graph》CVPR2024

这篇论文介绍了一种名为Zero-TPrune的方法，旨在解决预训练Transformer模型在边缘设备部署时面临的挑战。这些挑战主要是由于模型大小和推理成本的指数级增长，特别是输入序列中的令牌数量导致的计算复杂度呈二次方增加。Zero-TPrune是一种零样本（zero-shot）令牌修剪方法，它利用预训练Transformer模型的注意力图来对令牌进行重要性排名，并移除信息量较少的令牌。这种方法不需要在剪枝后进行昂贵的微调（fine-tuning）过程。

2024-10-10 21:50:38 1496

原创《Building Vision Transformers with Hierarchy Aware Feature Aggregation》ICCV2023

这篇论文介绍了一种名为层次感知特征聚合（Hierarchy Aware Feature Aggregation，简称HAFA）的框架，旨在解决视觉Transformer在生成层次化特征图时存在的问题。现有的Transformer模型在这一过程中仍然采用了卷积神经网络（ConvNets）的特征聚合方案，这导致了在特征聚合后图像网格区域的语义信息变得混乱，使得注意力机制难以准确建模全局关系。为了解决这个问题，HAFA框架被提出，它在浅层增强局部特征的提取，并在深层聚合语义相似的patches。

2024-10-10 21:03:46 974

原创《Dynamic Focus-aware Positional Queries for Semantic Segmentation》CVPR2023

这篇论文提出了一种新的查询设计，称为动态聚焦感知位置查询（Dynamic Focus-aware Positional Queries，DFPQ），用于语义分割任务。这种方法动态生成位置查询，依赖于前一个解码器块的交叉注意力得分和相应图像特征的位置编码。DFPQ能够为目标区域保留丰富的位置信息，并提供准确、细粒度的位置先验。此外，作者还提出了一种有效处理高分辨率交叉注意力的方法，称为高分辨率交叉注意力（High-Resolution Cross-Attention，HRCA），它通过仅聚合基于低分辨率交叉注

2024-09-24 10:54:34 1098

原创《SG-Former: Self-guided Transformer with Evolving Token Reallocation》ICCV2023

SG-Former（Self-guided Transformer）是一种新型的视觉Transformer模型，旨在解决传统Transformer在处理大型特征图时面临的计算成本高的问题。该模型通过一种自适应细粒度的全局自注意力机制，实现了有效的计算成本降低。它利用重要性地图（significance map）来重新分配令牌（tokens），根据每个区域的重要性进行调整。实验结果显示，SG-Former在ImageNet-1K、CoCo和ADE20K等数据集上的性能超过了现有的最先进模型，同时具有更低的计算

2024-09-23 20:39:28 1083

原创《MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications》CVPR2023

论文提出了一种新的基于图的稀疏注意力机制，称为Sparse Vision Graph Attention (SVGA)，专为在移动设备上运行的视觉图神经网络（ViGs）设计。此外，作者提出了首个用于移动设备上视觉任务的混合CNN-GNN架构，称为MobileViG，它使用了SVGA。

2024-09-20 15:03:11 1349

原创《HINormer: Representation Learning On Heterogeneous Information Networks with Graph Transformer》WWW

这篇论文介绍了一种名为HINormer的新型模型，旨在解决异构图信息网络（HINs）上的节点表示学习问题。现有的基于消息传递的图神经网络（GNNs）在表达能力、过平滑和过压缩等问题上存在局限性。为了克服这些问题，作者提出了利用图变换器（Graph Transformers, GTs）的全局注意力机制来增强模型的表现力。HINormer通过两个主要模块——局部结构编码器和异构关系编码器——来捕获HINs中节点的结构和异构信息，从而实现全面的节点表示。

2024-09-20 11:15:51 874

原创《Pure Transformers are Powerful Graph Learners》NIPS2022

论文展示了标准Transformer模型，无需针对图数据的特定修改，就可以在图学习领域取得有希望的结果，无论是在理论还是实践上。作者提出，通过将图中的所有节点和边视为独立的token，并通过适当的token嵌入增强它们，然后将这些token输入到Transformer中，就可以有效地处理图数据。这种方法在大规模图数据集 PCQM4Mv2 上取得了显著优于图神经网络（GNN）基线的结果，并且与具有复杂图特定归纳偏置的Transformer变体相比具有竞争力。

2024-09-18 20:39:53 930

原创《GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation》CVPR2024

为了加速预训练的ViTs，研究者们开发了包括令牌修剪和合并方法在内的技术，旨在减少参与计算的令牌数量。然而，这些方法存在一些限制，如修剪令牌导致图像信息丢失和令牌匹配过程中的效率问题。本文介绍了一种新颖的基于图的令牌传播（Graph-based Token Propagation, GTP）方法，以解决在有效ViTs中平衡模型效率和信息保留的挑战。GTP通过精心设计的信息传播机制，将不太重要的令牌信息传播到空间和语义上相连的重要令牌，从而减少计算复杂性，同时保留被消除令牌的关键信息。

2024-09-18 19:19:24 1506

原创《Recipe for a General, Powerful, Scalable Graph Transformer》NIPS2022

拟解决的问题：图变换器（GTs）在处理小规模图时受到限制，并且缺乏一个共同的基础来定义什么是好的定位或结构编码。此外，标准的全局注意力由于其二次方的计算成本 O(N2)O(N2)，限制了 GTs 只能应用于具有数百个节点的小图。创新之处提出了一个清晰的定位编码（PE）和结构编码（SE）的定义，并将其分类为局部、全局和相对编码。提出了首个线性复杂度的架构，通过解耦局部真实边聚合和全连接变换器，使得模型可以扩展到具有数千个节点的图。

2024-09-18 16:55:40 1107 2

原创《Discriminative Class Tokens for Text-to-Image Diffusion Models》ICCV2023

论文讨论了文本到图像扩散模型的最新进展，这些模型能够生成多样化和高质量的图像。然而，生成的图像常常缺乏细节，并且由于输入文本的歧义性，容易产生错误。为了解决这些问题，作者提出了一种非侵入式的微调技术，利用预训练分类器的判别信号来指导生成过程，从而在保留自由形式文本表达潜力的同时，实现高精度。

2024-09-14 16:45:06 1232

原创《PhysDiff: Physics-Guided Human Motion Diffusion Model》ICCV2023

论文提出了一种新颖的物理引导的运动扩散模型（PhysDiff），它通过在扩散过程中加入物理约束来生成物理上可信的人类动作。现有的运动扩散模型在生成过程中往往忽视了物理法则，导致生成的动作包含诸如悬浮、脚滑动和地面穿透等明显的伪影。PhysDiff 通过使用基于物理的运动投影模块，在扩散步骤中将去噪后的动作投影到物理上可信的动作空间中，从而显著提高了生成动作的物理合理性。

2024-09-13 20:50:11 1394

原创《Diffusion Models as Masked Autoencoders》ICCV2023

论文旨在解决的问题是如何有效地利用生成预训练来提升视觉数据的理解，并在下游识别任务中与其他自监督算法竞争。尽管生成模型理论上能够通过近似数据分布来创建新样本，但如何将这种能力转化为对原始视觉数据的语义理解，是一个开放性问题。提出了DiffMAE框架，将扩散模型与掩码输入相结合，形成一种新的条件生成目标。证明了DiffMAE在下游识别任务中的有效性，并且在图像修复任务中生成了更高质量的样本。揭示了MAE和扩散模型之间的联系，即MAE可以看作是扩散模型的第一步推断。

2024-09-12 21:05:45 999 1

原创《MDTv2- Masked Diffusion Transformer is a Strong Image Synthesizer》

论文提出了一种名为**Masked Diffusion Transformer (MDT)**的新模型，旨在增强扩散概率模型（DPMs）在图像合成中的上下文推理能力。通过引入掩码潜在建模方案，MDT能够显著提升DPMs在图像中对象部分之间关系的学习能力，从而加速学习过程。实验结果表明，MDTv2（MDT的改进版本）在ImageNet数据集上达到了新的最优FID分数1.58，并且学习速度比之前的最优模型快超过10倍。

2024-09-12 16:40:17 1355

原创《Diffusion Models Without Attention》CVPR2024

论文提出了一种新的架构——Diffusion State Space Model（DIFFUSSM），它用一个更可扩展的状态空间模型骨干网络替代了注意力机制。这种方法在不进行全局压缩的情况下有效处理更高分辨率的图像，从而在整个扩散过程中保留了详细的图像表示。论文还强调了在扩散训练中对FLOP（浮点运算次数）高效架构的关注，并在ImageNet和LSUN数据集上的评估表明，DiffuSSM在FID（Fréchet Inception Distance）和Inception Score指标上与或超过现有的带有注

2024-09-12 15:34:50 891 2

空空如也

空空如也