evagyf-CSDN博客

原创 AAAI 2025 | VHM:面向遥感图像分析的通用可信视觉语言模型

本文提出了一种多功能且可靠的遥感视觉语言模型VHM，通过构建大规模遥感图像-文本数据集VersaD（140万条）和首个遥感诚实性数据集HnstD（4.5万问答对），解决了现有模型通用性不足和易产生幻觉的问题。VHM采用两阶段训练策略，结合多尺度视觉特征融合，在遥感图像理解任务中实现了SOTA性能，同时能对无意义问题诚实回答"不知道"。实验表明，VHM在场景分类、目标检测等任务上表现优异，且显著提升了回答可靠性。该研究为遥感图像分析提供了更通用和可信的视觉语言模型解决方案。

2026-05-24 13:29:15 379

原创 arXiv 2025 | VisNumBench:评估多模态大语言模型的数感能力

《VisNumBench：多模态大语言模型视觉数字感知能力评估基准》摘要本文提出了首个系统性评估多模态大语言模型(MLLM)视觉数字感知能力的基准VisNumBench。该基准基于认知科学的"数字感"理论，构建了包含7类视觉数值属性、4种任务范式、约1900道题目的评估体系，涵盖合成数据与真实数据两大子集。实验评估了17个主流MLLM，结果显示最优模型准确率仅57%，远低于人类基线(96%)，表明当前模型在视觉数字感知方面存在根本性缺陷。研究发现：1)开源与闭源模型性能差距极小；2)参

2026-05-11 21:11:46 274

原创 arXiv 2026 | HM-Bench:高光谱遥感领域多模态大模型综合基准测试

摘要：中山大学等机构联合提出首个高光谱遥感多模态大模型评测基准HM-Bench，填补了现有基准无法处理高光谱数据的空白。该基准覆盖20个公开数据集、13类任务，包含2178个样本块和19337条问答对，通过双模态（PCA合成图像+结构化文本报告）解决高光谱数据输入难题。实验评测18个主流模型发现，最佳模型准确率仅43.08%，光谱推理和变化检测是主要瓶颈，图像输入普遍优于文本输入。研究为高光谱多模态大模型发展提供了标准化评测体系与优化方向。

2026-04-26 00:29:01 399

原创 ICCV 2025 | VSSD:具有非因果状态空间对偶性的 Vision Mamba

本文提出了VSSD模型，通过非因果状态空间对偶性(NC-SSD)解决了传统SSM在视觉任务中的两大挑战：因果性限制和2D结构破坏问题。NC-SSD突破因果性瓶颈，使每个图像块对模型的贡献与其位置无关，保留全局感受野的同时维持线性复杂度。基于NC-SSD构建的VSSD模型在ImageNet分类等任务中表现优于CNN、ViT和现有SSM模型，实现了精度与效率的双重提升。方法创新包括：1)将SSD参数A的作用改为非因果性；2)避免2D特征扁平化带来的结构破坏；3)设计高效模型架构。实验证明VSSD在计算效率和训练

2026-03-17 10:14:57 436

原创 CVPR 2025 | VL-RewardBench:视觉语言生成式奖励模型的挑战性基准测试

本文提出VL-RewardBench基准测试集，用于评估视觉-语言生成式奖励模型(VL-GenRMs)的性能。该基准包含1250个高质量测试样本，覆盖通用多模态指令、视觉幻觉检测和多模态推理三类任务，通过AI辅助标注和人工验证确保数据质量。实验评估16个主流模型发现，商用模型表现中等(GPT-4o准确率65.4%)，开源模型难以超越随机水平。关键发现包括：模型失效主要源于视觉感知而非推理能力；测试时缩放效果因模型容量而异。

2025-12-20 16:17:30 910

原创 ICCV 2025 | IRGPT:利用大规模基准测试的双模态课程理解真实世界的红外图像

本文提出IRGPT模型，旨在解决真实场景红外图像理解中的关键挑战。通过构建大规模红外-文本数据集IR-TD（包含26万组真实图像-文本对），并提出双向跨模态课程迁移学习策略，实现了从可见光到红外领域的知识迁移。实验表明，IRGPT在9项基准任务中均达到最优性能，显著优于现有方法。该工作填补了红外图像多模态理解的空白，为相关领域提供了重要基准。

2025-12-09 17:54:14 1142

原创 ICML 2024 | DoRA:Weight-Decomposed Low-Rank Adaptation 权重分解低秩适应

本文提出了一种新的参数高效微调方法DoRA，通过将预训练权重分解为幅度和方向两个独立组件进行优化。DoRA利用LoRA机制专门调整方向分量，同时微调幅度分量，使学习模式更接近全量微调（FT）。实验表明，DoRA在多项任务中性能优于传统LoRA，且不增加推理延迟。该方法结合了权重分解和低秩适应的优势，通过解耦幅度和方向的调整过程，提升了模型微调的精度和稳定性。

2025-11-18 21:20:36 1246

原创 ACM Computing Surveys 2025 | 大语言模型的高效压缩与调优方法综述

本文系统综述了大语言模型(LLM)的高效压缩与调优方法。研究基于505篇文献的系统筛选，提出四大核心问题：压缩技术分类(RQ1)、调优方法趋势(RQ2)、实际应用场景(RQ3)及关键启示(RQ4)。研究构建了完整技术体系：压缩方法包括知识蒸馏(分预训练/白盒/黑盒三类)、低秩策略(近似与分解)、参数剪枝(结构化与非结构化)和量化(训练后与训练感知)；调优技术涵盖参数高效微调(适配器/LoRA)、查询调优(提示/前缀)和推理优化(硬件加速)。

2025-11-09 19:06:11 768

2501_93960236的博客