- 博客(10)
- 收藏
- 关注
原创 佛罗里达大学提出Med3DVLM:适用于三维医学图像分析的高效视觉-语言模型
定性分析中,其能识别关键异常,但存在过度泛化和幻觉现象见下图3。:基于MLP - Mixer设计双流式投影器,融合低层次空间细节和高层次抽象语义特征,通过两个平行的 MLP - Mixer 模块分别处理不同层的图像特征,然后与文本嵌入融合,比简单线性投影更能捕捉丰富的跨模态交互,提高LLM解码准确性。:采用 DCFormer,将3D卷积分解为三个平行的1D 卷积,降低计算复杂度,有效捕捉3D图像的细粒度空间特征,可处理更大尺寸的3D数据(如 128x256×256),保留细节以改善图文对齐。
2025-04-20 19:13:12
1176
原创 CVPR2025 | 哈工业&鹏程Lab提出MambaVLT:多模态融合与“动态更新”的视觉-语言跟踪新模型!
而状态空间模型和Mamba在长序列建模中表现出色,展现出替代Transformer的潜力,但在时间多模态特征建模和更新方面的应用仍有待研究,因此论文探索Mamba状态空间的演化过程以解决上述问题。首先用单独的视觉和语言编码器进行初步特征提取,将语言描述、模板视频剪辑和搜索区域分别编码为相应特征并连接成统一的1D序列,再通过模态选择模块融合多模态参考,最后由目标判别头定位目标,同时计算置信分数更新模板视频剪辑。:该模块能记忆长期目标信息,进行跨帧信息建模和参考特征更新,增强当前跟踪帧的内部多模态相关性。
2025-04-19 18:54:28
1219
原创 CVPR2025 | 谷歌等提出VICT:视觉上下文动态调优,解决视觉模型分布偏移难题 !
比如图1,在6个代表性视觉任务(包括深度估计、语义分割等)面对15种常见损坏(如噪声、模糊、天气等)时,像Painter这样的现有VICL模型在零样本(任务提示来自训练分布)和单样本(任务提示来自测试分布)设置下,性能都较差,这表明其泛化能力不足,难以适应未见新领域,因此需要研究提升VICL 模型在分布偏移下的泛化性。在未见任务上,如图6,VICT 能对前景对象分割和彩色化等未见任务产生不错的结果,而 Painter 在彩色化任务上无法泛化,进一步证明 VICT 在未见任务上的应用潜力。
2025-04-18 21:10:54
1064
原创 “看一眼就足够!”KAIST提出零样本单目深度估计模型:高分辨率深度图高效生成,告别边界断层!
基于Patch的高分辨率深度估计方法虽能缓解内存问题,但在重新组装估计的深度Patch时会引入深度不连续问题,即边界伪影,且为解决该问题采用的测试时集成平均方法会降低推理速度,在实际应用中存在局限性。:零样本深度估计模型在大规模数据集上训练,泛化性强,但训练数据分辨率低,处理高分辨率图像时,直接处理会导致内存消耗大且精度下降,下采样则会丢失边缘细节,影响深度估计的准确性,使整体结构出现低频伪影。在上图中,定性比较显示PRO模型在处理透明物体和Patch边界时,深度不连续现象最少,推理速度最快。
2025-04-15 22:30:22
797
原创 约翰霍普金斯大学提出F-ViTA:实现多波段热成像图像生成!
F-ViTA 增加了来自基础模型输出的两个条件嵌入:将可见图像通过 RAM-Grounded-SAM 管道生成的掩码经 SAM 提示编码器生成判别嵌入,文本标签经 CLIP 编码器生成文本嵌入,这些嵌入与图像嵌入、指令嵌入连接,通过可训练投影仪处理后参与生成过程(见图3)。:在 RGB-T 融合分割、热图像分割和热图像行人检测等任务中,使用 F-ViTA 生成的热图像作为合成数据,实验表明即使部分使用合成数据,模型性能下降不明显,体现了 F-ViTA 在这些任务中的应用价值(见表 7、8、9)。
2025-04-14 21:21:34
879
原创 CVPR2025 | 上海科技大学提出MITracker:多视图目标跟踪新框架+23万帧数据集,目标跟踪抗遮挡能力飙升!
经ViT处理后,通过特定计算得到聚焦于目标对象的特征,再利用基于CenterNet架构的边界框头输出跟踪结果,并将特征映射到2D特征图,为后续多视图集成做准备。和其他多视图数据集相比,它提供了更丰富的对象类别(27类,远超其他数据集的1 - 8类)和更多的视频(260 个),且采用实用的3 - 4视图相机设置,是唯一结合多视图跟踪、丰富对象类别、缺失标签注释和校准信息的数据集。跟踪的时候呢,当目标在部分视图中被遮挡,系统会利用构建好的3D特征体空间中的信息,对被遮挡视图中的目标跟踪进行优化和修正。
2025-04-11 22:53:15
883
原创 天津大学&西电提出Dream-IF:量化多模态图像融合相对主导性,显著提升融合性能!
像素损失关注图像像素值的差异,梯度损失用于保留图像的纹理细节,颜色损失确保融合图像的颜色信息准确,而SSIM损失从结构相似性的角度,与其他损失函数相互补充,共同指导模型的训练,使Dream-IF 能够生成更符合预期的融合图像。Dream-IF),通过量化多模态图像融合中的相对主导性,指导跨模态增强与盲退化恢复,显著提升了退化场景下的融合鲁棒性,并在多数据集和下游任务中验证了其优越性。:多数现有方法将图像融合(IF)和图像恢复(IR)视为独立任务(图1a),或虽整合但未挖掘内在联系(图1b),导致性能不佳。
2025-04-09 20:27:20
584
原创 CVPR2025 | 华科&武大提出MINIMA:统一跨模态图像匹配框架,解决多模态图像匹配中因模态差异带来的挑战!
首先在多视图RGB数据上预训练先进的匹配模型,如稀疏匹配的LightGlue、半密集匹配的LoFTR和密集匹配的RoMa。通过数据引擎,不仅解决了多模态数据获取困难的问题,还保证了生成数据的质量和多样性,为匹配模型提供了丰富的训练素材,支持匹配模型学习不同模态间的特征和匹配关系,从而获得跨模态能力。数据引擎能够生成具有显著差异的模态数据,意味着它可以模拟真实世界中不同成像系统产生的模态特征差异,为后续匹配模型的训练提供丰富多样的数据,帮助模型更好地学习跨模态的匹配模式,从而提高跨模态图像匹配的性能。
2025-04-08 21:55:25
1103
原创 CVPR2025 | 西北工大等单位提出HVI:一种新色彩空间+CIDNet,助力低光图像增强!
转换到HSV颜色空间后,虽然照明增强效果看起来更正常,但图像中出现了红色不连续性噪声(如红色区域的噪声)和黑色平面噪声(黑色区域的异常),这些噪声在增强后的图像中形成了明显的伪影,影响图像质量。在低光条件下,成像传感器捕获的图像存在噪声多、视觉质量差的问题,低光图像增强(LLIE)旨在改善图像亮度、减少噪声和颜色偏差。在转换过程中,通过一系列的计算和变换,调整图像的饱和度和亮度,使得最终输出的sRGB增强图像在视觉上更加自然、准确,同时保留了HVI颜色空间在增强过程中所带来的优势,如减少颜色偏差和噪声等。
2025-04-07 22:01:12
857
原创 ICLR2025-Oral | 斯坦福&港科大提出IC-Light:一种基于扩散模型全新光照编辑方法!
同时,模型还会根据光照和物体信息生成与之匹配的背景,例如在“sunlight from the left side, beach”的描述下,生成有左侧阳光照射效果的海滩背景,确保整体图像在光照和场景上协调统一,以满足用户的需求。:图注中提到虽然展示的架构是典型的基于UNet的扩散模型,但文中所介绍的学习光照和施加光传输一致性约束的方法,同样适用于(潜在)diffusion transformers,说明该方法具有一定的通用性,不局限于特定的模型架构。:以普通图像条件扩散模型为基础,在无特殊约束下学习光照。
2025-04-01 21:19:07
1152
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人