- 博客(37)
- 收藏
- 关注
原创 RISE论文阅读
现有模型的一大痛点是它们容易学习到与特定领域强相关的特征(domain-specific features),例如照片的背景、艺术画的笔触等,这导致模型在新领域上性能急剧下降。该方法的总体流程 (Pipeline) 是训练一个学生模型(如 ResNet),其总损失函数由三部分加权组成:标准的监督学习损失、传统的知识蒸馏损失,以及本文提出的核心——跨域距离损失。:论文创新性地提出,利用一个大型的、预训练好的视觉-语言模型(特指 CLIP)作为“教师模型”,来指导一个更小的“学生模型”的学习。
2025-09-28 19:42:07
345
原创 CustomKD论文阅读
知识蒸馏(Knowledge Distillation, KD)是一种很有前景的技术,可以将大型教师模型(LVFMs)的知识迁移到小型的学生模型(边缘模型)上,以在不增加推理成本的情况下提升其性能。论文观察到一个关键现象:当教师模型从一个较小的版本(如ViT-S)升级到一个更大的版本(如ViT-L)时,教师自身的性能提升很明显,但通过蒸馏带给学生模型的性能增益却非常有限。一个预训练好的大型教师模型(LVFM),一个预训练好的小型学生模型(边缘模型),少量有标签数据 DL,大量无标签数据 Du。
2025-09-28 19:06:06
431
原创 RKD论文阅读
在Cars 196数据集上,使用RKD训练的小学生模型(ResNet18-128)的性能(82.50%)甚至远超强大的教师模型(ResNet50-512)的性能(77.17%)。: 知识蒸馏(Knowledge Distillation, KD)是一种有效的方法,旨在将一个复杂的“教师模型”学到的知识迁移到一个轻量的“学生模型”中。神经网络中知识的核心,不仅在于它对单个样本的映射能力,更在于它为整个数据空间建立的。ψ(·),用它来计算这些N元组的结构关系信息(例如,计算一对样本的距离,或三个样本的夹角)。
2025-09-28 16:58:40
533
原创 KD论文阅读
因此,核心问题是如何将一个强大的集成模型(或一个非常大的单一模型)的知识“压缩”到一个更小、更高效、易于部署的单一模型中,同时尽量不损失其性能。它能够将一个复杂模型(或模型集成)所学到的“暗知识”提炼并迁移到一个更小、更快的模型中,使得高性能模型在资源受限环境下的部署成为可能,是连接模型研究与实际应用的重要桥梁。其核心思想是,使用一个已经训练好的、复杂的“教师模型”(cumbersome model)来指导一个轻量的“学生模型”(distilled model)的训练。
2025-09-28 16:33:17
377
原创 DKD论文阅读
它关注的是模型在犯错时,认为“哪个错的更靠谱一些”的细粒度知识,即“暗知识”。作者发现,经典的知识蒸馏损失(由Hinton提出)是一个高度耦合(Coupled)的公式,这种耦合性(1)抑制了非目标类别知识的有效传递;(2)限制了平衡不同知识成分的灵活性。当前最先进的知识蒸馏(KD)方法主要集中于从中间层提取复杂的深度特征进行蒸馏,而基于模型最终输出(logits)的蒸馏方法的重要性被大大忽略了。基于上述分析,提出一个新的、解耦的损失函数,用独立的超参数α和β取代原来的耦合项,从而更灵活地进行知识蒸馏。
2025-09-28 15:52:08
297
原创 Logit论文阅读
考虑到学生模型和教师模型之间存在巨大的容量差异,让一个轻量级的学生模型去拟合重量级教师模型的logit数值是非常困难且不必要的,这反而限制了学生模型的性能。研究发现,学生真正需要学习的是教师logit之间的“内在关系”(例如,哪个类别的logit最高,次高,以及它们之间的相对差异),而非其绝对数值。一个简单的Z-score标准化预处理可以有效解决该问题,让学生只关注真正重要的“关系”知识,从而为各种基于logit的蒸馏方法带来稳定的性能提升。该方法有效缓解了“大模型教师不一定教出好学生”的问题。
2025-09-28 15:32:43
370
原创 GA论文阅读
它不再依赖固定的、手工设计的损失函数来迁移知识,而是通过引入一个“教学助理”(判别器),让学生网络在对抗中动态地、自适应地学习模仿教师网络的内部特征表达。而使用本文方法训练的学生网络特征(c)分布清晰,各个类别的边界明确,与教师网络(a)的特征分布非常相似,证明了方法的有效性。: 借鉴Hinton的方法,让学生网络柔化的输出 τ(os) 模仿教师网络柔化的输出 τ(oT),通过交叉熵 H(τ(os), τ(oT)) 来实现。训练结束后,判别器被丢弃,训练好的学生网络即为最终得到的便携式模型。
2025-09-28 15:12:33
383
原创 DHO论文阅读
在ImageNet的低资源(low-shot,1%和10%标签)半监督设置下(表4),DHO(使用ViT-L/14作为学生模型)的性能超过了之前所有方法,分别将1%和10%标签下的准确率记录刷新了3%和0.1%,同时使用的模型参数更少。该框架的核心是为学生模型引入两个独立的预测头:一个监督头(CE Head)专门从有限的标注数据中学习,另一个蒸馏头(KD Head)专门学习教师模型在所有数据(包括未标注数据)上的预测。:相比于传统的单头蒸馏方法,DHO在11个不同的数据集上都取得了显著的性能提升。
2025-09-28 14:49:00
675
原创 Ttimesuite论文阅读
它整合了 15 个现有数据集,并创建了 2 个新数据集,覆盖了 9 类与时间高度相关的任务,如:时间视频定位、密集视频字幕、视频摘要、步骤定位、高光检测等。这种方法的初始化很巧妙,等效于平均池化,但为后续微调提供了更大的灵活性。最后,携带了时间信息的视觉令牌序列与用户的文本问题(query)拼接在一起,共同作为 LLM 的输入,LLM 最终生成答案。: 逐步增加 TimePro 中的不同任务数据,模型的长视频理解和时间定位能力都随之稳定提升,证明了高质量、多样化的时间中心数据是有效的。
2025-09-26 11:03:41
898
原创 sparseVLM论文阅读
现有的解决方法通常需要训练一个额外的网络来修剪冗余的视觉令牌,或者对模型进行微调,这不仅增加了成本,而且很多方法在剪枝时忽略了文本提示(prompt)的指导作用,导致剪枝的针对性不强。它通过智能地利用文本提示来指导视觉令牌的剪枝,并结合自适应剪枝率和令牌回收机制,在大幅降低计算量和延迟的同时,最大限度地保留了模型的原始性能,为在资源受限设备上部署强大的VLM提供了实用的解决方案。在LLM解码器的每一层,都执行一次自适应的稀疏化操作,具体包括:计算视觉令牌重要性、确定剪枝数量、执行剪枝,并回收被剪枝的令牌。
2025-09-26 10:23:37
1078
原创 VideoChat-Flash论文阅读
其核心困难在于,长视频会产生海量的视觉Token(例如,Gemini 1.5-Pro处理一小时视频会产生近百万Token),这带来了巨大的计算和内存开销,使得模型难以高效地理解和处理长视频的上下文信息。在处理10000帧的长视频时,VideoChat-Flash的计算量(FLOPs)比LongVILA低了两个数量级,并且是唯一一个能在一张A100-80G显卡上完成推理的模型,而其他模型均因显存溢出(oom)而失败(见Table 6)。在少量数据上对视觉编码器进行高分辨率微调,提升模型对高清视频的感知能力。
2025-09-25 21:06:29
1054
原创 Moviechat论文阅读
使用一个预训练的、基于图像的ViT模型(如EVA-CLIP的ViT-G/14)和一个Q-former(来自BLIP-2),以滑动窗口的方式逐帧提取特征。同时,对记忆模块的各个超参数(如长短期记忆的长度、合并的长度等)进行了实验,验证了当前参数选择的合理性。最后,根据用户的提问模式(全局理解或针对某个时间点的理解),模型会整合长期记忆和/或短期记忆,通过一个投影层(Q-Former)输入到大语言模型中,生成最终的回答。:经过压缩的、稀疏的视频记忆Token,这些Token被存入长期记忆中。
2025-09-25 20:47:59
884
原创 MotionSight论文阅读
本文的核心信息是:通过巧妙且无需训练的视觉预处理技术(如模拟“聚光灯”和“运动模糊”),可以有效“解锁”并增强现有MLLMs对视频中复杂、细微动态信息的感知和理解能力。针对物体运动,该方法首先利用现有的检测和跟踪模型定位运动物体,然后通过算法调暗背景、高亮运动物体,形成“聚光灯”效果。: 该模块通过动态时间聚合算法稳定并合并轨迹中的边界框,然后应用“视觉聚光灯”技术,即保留边界框内的原始像素,同时将框外的背景区域调暗。根据用户问题,将复杂的视频运动分解为“物体运动”和“相机运动”两个独立的子问题进行处理。
2025-09-25 16:48:11
531
原创 Efficient Motion-Aware Video MLLM论文阅读
通过精心设计的GOP编码器,可以在不增加token负担的情况下,将抽象的运动信息有效融入具象的空间表征中,从而实现视频MLLM的性能与效率双提升。:在多个公开的视频问答基准上进行了评估,包括MSVD-QA、MSRVTT-QA、ActivityNet-QA,以及长视频理解基准VideoMME和本文提出的运动理解基准MotionBench。:在MSVD-QA、ActivityNet-QA等多个基准上,EMA的性能超越了之前依赖帧采样的SOTA模型(如Video-LLaVA),证明了其方法的优越性。
2025-09-25 16:19:34
500
原创 VideollaMA 3论文阅读
因此,模型训练的前三个阶段都聚焦于利用大规模、高质量的图文数据来构建强大的通用视觉理解能力,在此基础上,最后一个阶段再专注于视频能力的提升。这样做的好处是充分利用了更容易获取且质量更高的图文数据,为视频理解打下了坚实的基础,这与那些早期就大量依赖视频数据的工作形成了鲜明对比。其成功的核心在于创新的“以视觉为中心”方法论:首先利用海量、优质的图文数据构建一个极其稳固的通用视觉理解地基,然后在此之上高效地扩展出顶尖的视频理解能力。这使得视频的表示更紧凑、更精确,并显著节省了计算资源。
2025-09-25 15:41:11
943
原创 AKS论文阅读
这种简单的采样方式很可能会丢失包含关键信息的帧,从而导致模型对视频内容的理解错误,给出不正确的答案。在当前的桶内,计算所有帧的平均分s_all和得分最高的M帧的平均分s_top。比较AKS (ADA) 与其他采样策略,如均匀采样(UNI)、只看相关性的顶峰采样(TOP)和只看覆盖度的分桶采样(BIN)的效果。AKS算法根据所有帧的相关性分数,执行一个递归的“判断-分裂”(Judge-and-Split)策略,来决定最终选择哪些帧。,提供了一个非常有效的预过滤方案,能显著提升模型对长视频的理解能力。
2025-09-24 21:03:03
351
原创 Koala论文阅读
通过将全局上下文z_key与一组可学习的“片段查询向量”相加,并注入到QFormer的查询(Query)中,迫使模型在处理当前片段时,能主动关注那些与视频整体目标相关的视觉特征。这是一种轻量级的微调方法,不仅显著提升了模型的长视频理解能力,还意外地增强了其短视频识别能力,证明了该方法的普适性和有效性。最后,将代表全局上下文的z_key、代表跨片段上下文的z_inter以及用户问题的文本Token拼接在一起,送入大语言模型(LLM)中,生成最终的答案。将该片段的帧和上一步得到的全局z_key一起送入。
2025-09-24 15:02:55
388
原创 Video-XL-2论文阅读
我们的双层KV解码策略继续以块的形式管理KV缓存。在解码过程中,我们根据每个视频块与特定文本查询的相关性,选择性地重新加载每个视频块的密集或稀疏KV。原本的dense KV被划分成块以及pooling过后得到稀疏KV,query进来相似度搞得用dense KV,相似度低的用sparse KV。Video-XL-2能够处理高达10,000帧的视频并保持强劲性能,而之前的Video-XL模型只能处理2048帧(图5)。在所有评估模型中,Video-XL-2的FLOPs最低,实现了效率与性能的最佳平衡。
2025-09-23 14:30:55
725
原创 Video-XL-Pro论文阅读
接下来,对于每个视频样本,该算法对20帧视频进行均匀采样,利用SigLIP算法计算帧内余弦相似度,并根据预定义的阈值,对每个子集进行压缩,过滤掉语义冗余度高的视频,最后保留具有信息强度的高质量视频,以提高训练效率。:在只有3B参数的情况下,Video-XL-Pro在MLVU、Video-MME等多个基准上全面超越了大多数7B参数的开源模型,甚至在某些指标上超过了GPT-40等专有模型,展示了其卓越的性能和效率。结论是,使用SGM的模型性能优于使用随机掩码的模型,说明SGM能有效引导模型关注关键区域。
2025-09-22 11:43:38
821
原创 Video-XL论文阅读
对视频中信息密集的部分形成小的间隔;对视频中信息稀疏的部分形成大的间隔进行粗粒度压缩),它将间隔内的视觉信息(即来自其先前视觉令牌的原始KV)汇总成它们相关联的KV。:实验分析了不同数据源的贡献,发现图像数据有助于提升模型的整体和单细节理解能力,而专门设计的VICO数据集即使样本量不大,也能极大地增强模型对长视频的时序推理能力。:在7B参数规模下,Video-XL在几乎所有长视频基准测试中都取得了开源模型的最佳性能,甚至在MLVU Dev任务上超过了GPT-4o等强大的闭源模型。时的大量成本的限制。
2025-09-21 16:32:56
803
原创 AMMKD论文阅读
如果梯度方向冲突(一个想让参数增大,另一个想减小),该机制会寻找一个“帕累托最优”的更新方向,这个方向能同时兼顾所有教师的指导,同时最大程度地避免冲突,从而自适应地调整每个教师的实际影响力。结论是,相比基线模型,“多教师”(MT)和“动态权重选择”(DWS)策略都带来了显著的性能提升,而同时使用两者(MT + DWS)的效果最好。最终通过一个组合的损失函数来指导学生模型的训练。,动态地调整每个教师模型在训练过程中的影响力(权重),从而有效减少不同教师之间的指导冲突和噪声,引导学生模型朝向更优的方向学习。
2025-09-16 20:39:39
858
原创 VL2Lite论文阅读
在所有测试的轻量级模型(ResNet-18, MobileNet-V2等)和所有数据集上,使用VL2Lite都带来了稳定且显著的性能提升(例如,在CUB-200数据集上,ResNet-18的准确率提升了6.43%)。3.为了弥补VLM的高维特征空间和轻量级模型的低维空间之间的差距,我们引入了知识压缩层,该层有效地将VLM的丰富表示压缩成适合学生模型的格式,促进了高效的知识传递。1.VL2Lite通过利用VLM中固有的丰富的视觉和语言表示,无需额外的教师培训,简化了训练管道并增强了学生模型的表示能力。
2025-09-11 20:21:55
931
原创 SigLIP论文阅读
在分布式训练中,每个设备只计算其本地数据(大小为b)与其他设备数据块之间的相似度和损失,然后通过高效的通信原语(permutations)交换数据块,重复这个过程,直到所有图文对都交互过。:使用SigLiT(锁定的图像编码器+Sigmoid损失),仅用4个TPU,两天内就能在ImageNet上达到84.5%的零样本准确率,证明了该方法的高效率和易用性。:一个批次(mini-batch)的 N 个图像-文本对 {(I_1, T_1), ..., (I_N, T_N)}。
2025-09-11 11:29:04
698
原创 CLIP论文阅读
对于一个下游分类任务(例如区分“猫”、“狗”、“汽车”),首先将类别名称构造成描述性文本,即“提示工程”(Prompt Engineering),例如 “A photo of a {class}.”,生成 “A photo of a cat.”, “A photo of a dog.” 等。由此产生的 CLIP 模型能够以零样本的方式完成各种视觉任务,其性能可与有监督模型相媲美,并且学习到的特征比在标准数据集上训练的模型更鲁棒。: CLIP 的零样本模型比标准 ImageNet 模型鲁棒得多。
2025-09-10 19:14:40
294
原创 Janus-pro论文阅读
我们还在不同类型的数据集上调整了第三阶段监督微调过程中的数据比例,将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10更改为5:1:4。这些方法中的大多数使用相同的视觉编码器来处理多模态理解和生成的输入,由于这两个任务所需的表征不同,这通常会导致多模态理解的性能不佳。第二阶段的集中训练:在第二阶段,我们放弃ImageNet数据,直接利用普通的文本到图像数据来训练模型,以生成基于密集描述的图像。Janus提出了解耦视觉编码,它消除了多模态理解和生成任务之间的冲突,在两个任务中都实现了出色的性能。
2025-09-10 18:15:46
343
原创 VILA2文章阅读
1. 对于每个干净的3D场景,我们迭代所有3D边界框,并从对象-对象关系(最近,在前面,后面,左,右)和对象-相机关系(近,远,最近,最远,左,右)随机采样;VILA²在8B和40B两种尺寸下,均在10多个主流基准上达到了SOTA或具有竞争力的性能,尤其是在MMMU基准上,取得了开源模型的最佳表现。融合所有三个专家的知识后,性能进一步提高,证明了专家增强的协同效应。这篇文章的输入和输出是什么,如果给我这个输入和输出,我计划怎么做,网络怎么设计,loss怎么设计等等,或者以及自己想怎么改进,列点作答。
2025-09-09 15:48:56
794
原创 SICOG论文阅读
对于每个实例(例如,未标记的图像),它评估候选人的质量通过基于语义相似性将每个候选项与所有其他候选项进行比较来确定候选项(例如,候选字幕),并且选择具有最高一致性得分的候选项,只要其超过预定义阈值τ(否则,跳过实例及其候选)SICOG 通过自生成数据和自学习循环,首次在预训练阶段协同增强 MLLMs 的感知与推理能力,仅需少量标注即可构建高性能基础模型,为“预训练终结”问题提供了新范式。阶段2:可视化预调优。现有的生成多模态数据的方法生成的标题通常缺乏全面性和准确性,通常缺乏流畅性和连贯性。
2025-09-08 15:51:03
587
原创 Qwen2.5-VL论文阅读
1.摘要Background视觉语言模型目前面临着发展瓶颈,包括计算复杂性,有限的上下文理解,细粒度的视觉感知差,以及在不同序列长度上的不一致性能。Innovation(1)我们在视觉编码器中实现了,以优化推理效率;(2)我们引入了,并在不同的采样率下实现全面的视频理解;(3)我们通过来升级时域中的MRoPE,从而促进更复杂的时间序列学习;(4)我们在为预训练和监督微调管理高质量数据方面做出了巨大努力,进一步。2. 方法 Method。
2025-09-07 11:35:14
983
原创 LLaVA-RLHF论文阅读
1.摘要Background1.大型多模态模型(LMM)是跨模态构建的,并且多模态数据远远少于文本数据,两个模态之间的不对齐会导致“幻觉”,生成不基于上下文中的多模态信息的文本输出。2.当前RLHF范式的一个潜在问题被称为奖励黑客,这意味着从奖励模型中获得高分并不一定会导致人类判断的改善。Innovation。
2025-08-24 16:55:28
663
原创 多模态大模型综述阅读
多模态大模型, MLLMs)是指能够同时处理、理解和生成多种类型数据(即“模态”) 的人工智能模型。这些模态包括但不限于文本、图像、音频、视频、传感器数据等。其核心目标是打破单一模态的信息壁垒,实现跨模态的语义关联与协同处理,从而更全面地理解和生成复杂信息。
2025-08-17 20:33:51
642
原创 LLaVA-1.5论文阅读
4. 我们表明,将LLaVA的训练数据混合随机下采样高达75%并不会显著降低模型的性能,这表明更复杂的数据集压缩策略可以进一步提高LLaVA已经高效的训练管道。2. 缩放到高分辨率图像输入,我们表明LLaVA的架构是通用的,可以通过简单地将图像划分为网格来缩放到更高的分辨率,并保持其数据效率。5. 我们提供了经验证据,数据粒度的缩放与模型的能力是至关重要的,以提高能力,而不引入伪像,如幻觉。使用双层视觉语言转换器,用更多的数据和任务,增大模型,将输入图片变清晰。4. 总结 Conclusion。
2025-08-06 23:54:41
897
原创 Sparse4D论文阅读
检测提供了新基线,其模块化思想和时空融合策略对后续研究(如高清地图构建、占据预测)具有启发意义。本文旨在提升稀疏方法的性能,提出了一种结合时空特征融合的高效稀疏。关键点设计是核心突破,而深度重加权模块为解决投影模糊性提供了新思路。投影到图片上的点相同,图片相同神经网络拟合难度上升的问题。:显式预测深度置信度,抑制模糊投影特征,解决了不同。:投影关键点到图像平面,双线性插值采样特征。可学习)采样,提取丰富的上下文信息,解决。:伪点云方法依赖深度估计,计算复杂。4. 总结 Conclusion。
2025-08-03 19:23:07
372
原创 VADv2论文阅读
直接使行动回归,可能会输出一个介于两者之间的动作,倾向于输出在训练数据中出现最多的主导轨迹,从而导致安全问题和性能下降。概率建模是处理规划不确定性的本质突破,通过离散词表+概率场实现人类驾驶的多模态决策,仅需相机即达CARLA SOTA。提出概率规划来应对规划的不确定性,设计了一个概率场,将动作空间映射到概率分布,并从大规模驾驶演示中学习动作的分布。Ltoken:场景token损失,地图元素预测,agent规划跟踪,红绿灯颜色停车标志区域。3. 实验 Experimental Results。
2025-08-01 11:57:05
265
原创 LLaVA论文阅读
1.对话:设计了一个助理和一个人之间的对话,询问有关这张照片的问题。关于图像的视觉内容,会提出一系列不同的问题,包括对象类型、对象计数、对象动作、对象位置、对象之间的相对位置。对于每张图像,我们从列表中随机抽取一个问题,让GPT-4生成详细的描述。Vision Encoder与LLM权重不变,训练W,输入图像和Xv,输出以Xa为ground truth,为冻结的LLM训练一个兼容的视觉tokenizer。3.复杂的推理:上述两种类型侧重于视觉内容本身,在此基础上我们进一步创建了深入的推理问题。
2025-07-31 20:25:39
376
原创 VAD论文阅读
Agent Query从BEV Feature里学习agent级信息,再agent-agent交互,agent-map交互,预测多条每个agent的未来轨迹。自车道路方向限制:过滤低置信度map预测,agent 轨迹选择置信度最高的,选择最近的lane divider与自车vector做方向loss。自车他车碰撞限制:过滤低置信度map预测,agent 轨迹选择置信度最高的,用自车他车横向纵向距离限制作为loss。现在的大部分端到端架构使用计算密集型的栅格化,遗漏了实例级的信息,计算要求高。
2025-07-23 20:03:52
321
原创 Uniad论文阅读
对于表5所示的占用栅格预测任务性能,UniAD在近距离区域取得了显着进步,与 FIERY 和 BEVERSE 相比,UniAD 在 IoU near(%)上分别取得了 4.0 和 2.0 的明显提升。:分别分为智能体与智能体的交互,智能体与地图元素的交互,智能体与轨迹最后点(预测的目标点)的交互(它对参考点周围的空间特征BEV进行稀疏关注)为了验证以目标为导向的设计理念是否真正发挥作用,本文对感知及预测中的各个模块进行了广泛的消融研究,如表7所示,以证明前序模块的有效性和必要性。
2025-07-23 20:01:49
754
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人