YungJZ-CSDN博客

原创 EndtoEnd Object Detection with Transformers

文章优点该论文提出了一种新的直接预测物体检测问题的方法，即DETR（DEtection TRansformer），使用了自注意力机制来处理所有元素之间的相互作用，并且不需要任何定制化层，可以轻松地在任何包含标准CNN和transformer类的框架中实现。简化了检测管道，去掉了多个需要编码先验知识的手动设计组件，如空间锚定或非最大抑制。采用了端到端的训练方式，通过将物体检测视为直接集合预测问题来进行训练。使用了自注意力机制，能够更好地处理全局信息。实现了并行解码，避免了递归解码带来的计算负担。

2024-12-25 16:44:24 913

原创 Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

本文提出了一种多视图三维物体检测的长序列建模框架，称为StreamPETR。该框架建立在PETR系列稀疏查询设计的基础上，并系统地开发了一个以对象为中心的时间机制。模型在线执行，并通过对象查询逐帧传播长期历史信息。此外，我们引入了运动感知层规范化来建模物体的移动。与单帧基线相比，仅需微小计算成本，StreamPETR就实现了显著性能提升。在标准nuScenes基准上，它首次实现与基于激光雷达的方法相当的性能（67.6％ NDS & 65.3％AMOTA）。

2024-12-10 21:50:28 780

原创 PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

该论文提出了一种名为PETRv2的统一框架，用于从多相机图像中实现三维感知。该框架在原有基础上增加了时序建模和多任务学习，并通过引入特征引导位置编码（FPE）来改进了原始的3D位置嵌入（3D PE）。实验结果表明，该框架在3D目标检测、BEV分割和3D车道检测等任务上均取得了最先进的性能。本文提出PETRv2，这是一种用于多视图图像的三维感知统一框架。基于PETR[24]，PETRv2探索了时间建模的有效性，利用前一帧的时间信息来提升三维物体检测性能。

2024-12-04 21:24:33 1260

原创 PETR：Position Embedding Transformation forMulti-View 3D Object Detection

该论文提出了一种简单而优雅的多视角三维物体检测框架PETR，通过将二维特征转换为三维位置感知特征来实现端到端检测。相比于DETR3D，PETR避免了复杂的2D-to-3D投影和特征采样过程，并且在推理时可以使用离线生成的三维坐标作为额外的输入位置嵌入，更加易于实际应用。实验结果表明，PETR在标准nuScenes数据集上实现了最先进的性能（50.4％ NDS和44.1％ mAP），并在3D目标检测排行榜中排名第一。

2024-12-04 16:35:58 953

原创 3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodie

这篇论文探讨了如何在三维形状生成模型中学习可解释、结构化的潜在表示，并解决控制身份特征的问题。作者提出了一个直观而有效的方法，通过交换不同形状之间的任意特征来训练一个能够鼓励分离身份特征的三维形状变分自编码器（VAE）。实验结果表明，目前最先进的方法无法有效地分离人脸和身体的身份特征，而该方法能够在保持良好的表征和重构能力的同时正确地解耦这些特征的生成。文章优点该研究提出了一种新的方法来学习更分离、可解释和结构化的潜在表示，以提高3D变分自编码器（VAE）的性能。

2024-12-04 11:19:01 873

原创 CUDA HOME does not exist, unable to compile CUDA op(s)，已解决

解决，应该是conda-forge会有一系列相关的包。应该是本地没有nvcc相关执行文件。

2024-11-19 15:43:46 695

原创深度学习中的教师-学生模型

教师-学生训练方法”（Teacher-Student Training Paradigm）通常是指在深度学习中的一种知识蒸馏技术，其中一个已经充分训练且表现良好的模型（教师模型）指导另一个待训练或较简单的模型（学生模型）的学习过程。这里举一个简化例子来说明：假定我们正在处理3D物体定位任务，并且有一个基于Transformer架构的空间注意力网络模型。具体步骤如下：学生模型的初始化与训练知识蒸馏。

2024-10-24 22:34:55 1246

原创 Optimising Knee Injury Detection with Spatial Attention and Validating Localisation Ability

探讨了如何利用空间注意力机制和多平面融合技术优化膝关节损伤检测，并验证模型的定位能力。

2024-10-17 15:09:40 655

原创 Knee Injury Detection using MRI with Efficiently-Layered Network (ELNet)

磁共振成像（MRI）是一种广泛接受的膝部损伤分析成像技术。其捕捉膝部三维结构的优势使其成为放射科医生定位膝部潜在撕裂的理想工具。为了更好地应对日益增长的肌肉骨骼（MSK）放射科医生的工作量，患者分流的自动化工具变得真正必要，减少了病理案例阅读的延迟。在这项工作中，我们提出了高效层化网络（ELNet），这是一种针对初始膝部MRI诊断任务优化的卷积神经网络（CNN）架构，用于分流。与以往的方法不同，我们从零开始训练ELNet，而不是使用迁移学习方法。

2024-10-16 16:40:25 859

原创 Learning co-plane attention across MRI sequences for diagnosing twelve types of knee abnormalities

我们模型的概述如图5所示。原始数据包括不同平面（矢状面、冠状面和轴向）的PDW磁共振扫描以及两种对比度不同的序列（冠状面中的T1W和矢状面中的T2W）。所有图像都经过预处理成立方体体积，作为模型输入，得到五个原始体积（左侧）和通过旋转PDW体积得到的六个合成体积（右侧）。请注意，这组图像是特定案例，用于演示和验证我们的模型在内部数据集上的能力。换句话说，我们提出了一种使用多平面多对比度MRI集合进行膝部异常诊断的一般解决方案。

2024-10-15 16:35:10 1220

原创 M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

医学图像分析对于临床诊断和治疗至关重要，而多模态大型语言模型（MLLMs）的日益支持正逐步取代了二维医学图像。然而，以往的研究主要关注二维医学图像，而忽略了三维图像，尽管它们具有更丰富的空间信息。本文旨在利用MLLMs推进三维医学图像分析。为此，我们提出了一个大规模的三维多模态医学数据集M3D-Data，包含120K个图像-文本对和662K个针对各种三维医学任务（如图像-文本检索、报告生成、视觉问答、定位和分割）的指令-响应对。

2024-10-15 11:33:18 1831

原创 CogVideoX：Text-to-Video Diffusion Models with An Expert Transformer

我们介绍了CogVideoX，这是一种大规模的扩散变压器模型，旨在基于文本提示生成视频。为了高效地建模视频数据，我们提出利用三维变分自编码器（VAE）来压缩视频的空间和时间维度。为了提高文本与视频的对齐性，我们提出了一个专家变压器和专家自适应层归一化，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX能够生成具有显著运动的连贯、长时间的视频。此外，我们还开发了一个有效的文本-视频数据处理流程，包括各种数据预处理策略和视频字幕生成方法。

2024-10-14 14:49:34 1885

原创 CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

大规模预训练transformers在文本 (GPT-3) 和文本到图像 (DALL-E 和 CogView) 生成方面创造了里程碑。它应用于视频生成仍然面临着许多挑战：潜在的巨大计算成本使得从头开始训练无法承受；文本视频数据集的稀缺性和弱相关性阻碍了模型理解复杂的运动语义。在这项工作中，我们提出了 9B 参数transformer CogVideo，通过继承预训练的文本到图像模型 CogView2 进行训练。我们还提出了多帧速率分层训练策略来更好地对齐文本和视频剪辑。

2024-10-14 11:30:36 998

原创 CLIP和BLIP

CLIP 和 BLIP 都是强大的多模态模型，但它们有不同的侧重点。CLIP 强调通过对比学习实现图像和文本的对齐，专注于图像检索和分类，尤其是零样本学习。而 BLIP 则更注重视觉和语言之间的深度集成，适合于生成任务，如描述生成和视觉问答。如果你想要处理没有标注的图像分类问题，CLIP 可能更合适；而如果你需要生成与图像相关的描述或回答问题，BLIP 会是更好的选择。

2024-10-09 15:14:30 1592

原创 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

当今训练通用机器人模型的一个障碍是异质性。以前的机器人学习方法通常收集数据以针对一个特定实现进行训练，这既昂贵又容易过拟合。本研究研究了通过跨不同实现和任务规模在机器人数据上进行异质预训练来学习策略表示的问题。我们提出了异质预训练变换器（HPT），它预训练一个大型、可共享的策略神经网络主干，以学习任务和实现无关的共享表示。这种通用架构将来自不同实现的特定本体感知和视觉输入映射到短序列的令牌，然后处理这些令牌以将它们映射到控制不同任务的机器人。

2024-10-09 14:56:35 1339

原创 An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

这项工作没有引入新的方法。相反，我们提出了一个有趣的发现，质疑归纳偏差的必要性——现代计算机视觉架构中的局部性。具体来说，我们发现 vanilla Transformers 可以通过直接将每个单独的像素视为令牌并实现高性能结果来操作。这与 Vision Transformer 中流行的设计有很大不同，后者将 ConvNets 的归纳偏差维持到局部邻域（例如，将每个 16×16 补丁视为令牌）。

2024-09-05 11:13:41 1004

原创 VISION TRANSFORMER ADAPTER FORDENSE PREDICTIONS

这项工作研究了一种简单而强大的视觉转换器 (ViT) 密集预测任务适配器。与最近将视觉特定归纳偏差纳入其架构的高级变体不同，由于先前的假设较弱，普通 ViT 在密集预测上表现不佳。为了解决这个问题，我们提出了 ViT-Adapter，它允许普通 ViT 实现与视觉特定转换器相当的性能。具体来说，我们的框架中的主干是一个简单的 ViT，可以从大规模多模态数据中学习强大的表示。在转移到下游任务时，使用无预训练的适配器将与图像相关的归纳偏差引入模型中，使其适用于这些任务。

2024-09-04 16:24:43 1735

原创 HOW DO VISION TRANSFORMERS WORK

MSA 改善模型泛化能力MSA 不仅提高了模型的准确性，还通过平滑损失景观来提高泛化能力。损失景观的平坦化使得模型更容易优化，表现为更好的泛化能力。MSA 和卷积神经网络 (CNNs) 的互补性MSA 和卷积层（Convs）表现出相反的行为。MSA 作为低通滤波器减少高频信号，而卷积层则作为高通滤波器放大高频信号。因此，MSA 和卷积层是互补的，且可以在模型中结合使用，以提高性能。多阶段神经网络的阶段行为多阶段神经网络的行为类似于串联的小型模型，特别是阶段末尾的 MSA 对预测性能起关键作用。

2024-09-04 11:49:19 1558

原创 Fast Vision Transformers with HiLo Attention

Vision Transformers (ViTs) 引发了计算机视觉的最新和重大突破。它们的高效设计主要是由计算复杂度的间接度量来指导的，即FLOPs，然而与吞吐量等直接度量有明显的差距。因此，我们建议在目标平台上使用直接速度评估作为高效 ViT 设计原则。特别是，我们引入了 LITv2，这是一种简单有效的 ViT，它在一系列不同模型大小上以更快的速度优于现有的最先进方法。LITv2 的核心是一种新颖的自注意力机制，我们称之为 HiLo。

2024-09-03 15:53:28 1417

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

本文提出了一种新的视觉转换器Swin Transformer，它可以作为计算机视觉的通用主干。将 Transformer 从语言适应视觉的挑战源于两个域之间的差异，例如视觉实体的规模变化很大，以及与文本中的单词相比，图像中像素的高分辨率。为了解决这些差异，我们提出了一个分层 Transformer，其表示是使用 Shifted 窗口计算的。移位窗口方案通过将自注意力计算限制在不重叠的局部窗口上，同时允许跨窗口连接，从而带来了更高的效率。

2024-09-02 21:54:07 1626

原创 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

虽然 Transformer 架构已成为自然语言处理任务的事实标准，但它在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们表明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯转换器可以在图像分类任务中表现良好。

2024-09-02 15:47:52 1133

原创 Attention Is All You Need

主要的序列转导模型基于复杂的循环或卷积神经网络，其中包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单的网络架构 Transformer，它完全基于注意力机制，完全摒弃了递归和卷积。对两个机器翻译任务的实验表明，这些模型在质量上更优越，同时更可并行化，并且需要的训练时间显着减少。我们的模型在 WMT 2014 英德翻译任务上达到了 28.4 BLEU，比现有的最佳结果（包括集成）提高了 2 BLEU 以上。

2024-09-02 10:37:26 1272

原创 Attention Is Not What You Need: Revisiting Multi-Instance Learning for Whole Slide Image Classificat

尽管基于注意力的多实例学习算法在幻灯片级全幻灯片图像 (whole slide image，WSI) 分类任务中取得了令人印象深刻的表现，但它们容易错误地关注不相关的模式，例如染色条件和组织形态，导致不正确的补丁级预测和不可靠的可解释性。此外，这些基于注意力的 MIL（Multi-Instance Learning）算法往往专注于显着实例，难以识别难以分类的实例。在本文中，我们首先证明基于注意力的 WSI 分类方法不遵守标准的 MIL 假设。

2024-08-29 16:16:28 1073 1

原创 Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

大型多模态模型 (LMM) 在视觉语言任务中显示出了希望，但在高分辨率输入和详细的场景理解方面遇到了困难。为了应对这些挑战，我们引入了Monkey来增强LMM能力。首先，Monkey 通过将输入图像划分为统一的补丁来处理输入图像，每个补丁都匹配训练良好的视觉编码器的原始训练中使用的大小（例如 448×448）。Monkey配备了每个补丁的单个适配器，可以处理高达1344×896像素的更高分辨率，从而详细捕获复杂的视觉信息。其次，它采用多级描述生成方法，丰富了场景-对象关联的上下文。

2024-08-27 16:21:30 1090

原创 Flamingo中的Perceiver Resampler

在 Flamingo 模型中，Perceiver Resampler 是一个关键组件，用于将输入的多模态数据（如图像和文本）转化为适合Transformer处理的表示形式。Perceiver Resampler 使用了类似于 Perceiver 模型的架构，利用交替的注意力机制，将输入的高维数据映射到一组固定大小的潜在向量（latent vectors）。这种机制使得Flamingo模型能够在保持计算效率的同时，有效处理图像和文本的多模态输入，适应各种下游任务，如视觉问答、图像描述生成等。

2024-08-27 15:31:24 1662 2

原创 Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models

最近，人们对增强多模态大型语言模型 (MLLM) 处理高分辨率图像的能力产生了浓厚的兴趣。大多数现有方法侧重于采用裁剪策略来提高多模态大型语言模型理解图像细节的能力。然而，这种裁剪操作不可避免地会导致对象和连接区域的分割，这削弱了MLLM识别小或不规则形状的对象或文本的能力。这个问题在轻量级 MLLM 中尤为明显。为了解决这个问题，我们提出了Mini-Monkey，这是一种轻量级的MLLM，它结合了一种称为多尺度自适应裁剪策略(MSAC)的即插即用方法。

2024-08-27 11:42:48 1443

原创 Improved Baselines with Visual Instruction Tuning

大型多模态模型 (LMM) 最近在视觉指令调整方面显示出令人鼓舞的进展。在本文中，我们提出了第一个系统研究来研究 LLAVA 框架下受控设置下 LMM 的设计选择。我们表明，LLAVA 中的全连接视觉语言连接器非常强大和数据效率。通过对LLAVA进行简单的修改，即使用带有MLP投影的CLIP-ViT-L-336px和添加具有响应格式提示的面向学术任务的VQA数据，我们建立了更强的基线，可以在11个基准测试中实现最先进的性能。

2024-08-26 14:54:07 1090

原创线性层与MLP层

一个线性层相当于一个没有激活函数的MLP的一层。如果你把MLP看作是多个“线性层 + 激活函数”的堆叠，那么一个线性层相当于去掉激活函数的MLP层。

2024-08-25 21:41:04 442

原创 When Do We Not Need Larger Vision Models?

扩大视觉模型的大小一直是获得更强大视觉表示的事实标准。在这项工作中，我们讨论了不需要更大视觉模型的点。首先，我们展示了在尺度(S2)上缩放的能力，其中预先训练的冻结较小的视觉模型(如ViT-B或ViT-L)，在多个图像尺度上运行，可以在分类、分割、深度估计、多模态LLM (MLLM)基准和机器人操作方面优于更大的模型(如ViT-H或ViT-G)。值得注意的是，S2 在 V∗ 基准上对 MLLM 的详细理解方面实现了最先进的性能，超过了 GPT-4V 等模型。

2024-08-22 11:15:44 959

原创 LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

将不同任务的数据格式统一为interleave的图像-文本格式，使得模型能够处理不同场景中的多种任务，如多图像任务、视频任务和3D任务。构造了新的的训练数据集M4-Instruct，包含1177.6k个样本，覆盖了14个任务和41个数据集，支持多图像、视频、3D和单图像任务。LLAVA-NeXT-Interleave在多图像、视频和3D任务中取得了领先的性能，同时保持了单图像任务的表现。通过联合训练多个任务，该模型展示了在不同设置和模式之间任务转移的新能力。

2024-08-21 10:29:08 1751

原创 Fine-tuning与 Instruction Tuning

Instruction Tuning 是一种机器学习技术，特别是在自然语言处理 (NLP) 领域中，用于优化模型的行为，使其能够更好地遵循自然语言指令。它是在预训练和微调之后的一种技术，以进一步提升模型在实际应用中的表现。现代 NLP 模型通常经历三个阶段：预训练（Pretraining）：模型在大规模未标注的数据上进行训练，学习语言的基本结构和语义。微调（Fine-tuning）：模型在特定任务的数据集上进行调整，以提高在该任务上的性能。

2024-08-20 18:02:01 1959

原创 LLaVA-OneVision: Easy Visual Task Transfer

新的训练策略，先在但图上进行训练，在扩展到多图和视频。并在最后发现了处理新任务的能力。

2024-08-20 10:49:33 1106

原创 AttributeError: ‘TransformerDecoderLayerOptimal‘ object has no attribute ‘self_attn‘

【代码】AttributeError: 'TransformerDecoderLayerOptimal' object has no attribute 'self_attn'

2024-05-27 21:27:23 546

原创添加了ssh keys还是无法git push

ssh keys的正确设置只有git协议才可以使用ssh-keys文件，从而实现一键git push。https协议只支持账户密码输入。8月13日以后，git不再支持https协议。

2024-03-24 17:59:20 586 1

原创从远程仓库获取最新代码合并到本地分支

不推荐这种方式，因为是直接合并，无法提前处理冲突。

2024-03-21 09:21:18 1135

原创 dataframe的操作中concat和merge有什么区别

主要参数：axis（定义沿哪个轴进行合并），join（如何处理不同 DataFrame 的索引，是取交集（inner）还是并集（outer））。索引对齐：concat 在合并时会根据索引对齐数据，可以处理索引不完全匹配的情况。主要参数：on（指定合并的键），how（定义如何合并，如 inner, outer, left, right）。使用 concat 当你需要简单地沿一个轴堆叠数据时（例如，将两个数据集的相同列或行堆叠在一起）。灵活性：相对来说，concat 更加灵活，支持在不同的轴上进行数据堆叠。

2024-01-10 10:50:50 984

空空如也

空空如也