- 博客(323)
- 资源 (4)
- 收藏
- 关注
原创 多模态大语言模型arxiv论文略读(119)
➡️ 研究动机:为了定义和评估MLLMs在低级视觉感知和理解任务中的自我意识能力,研究团队提出了QL-Bench基准测试,通过构建LLSAVisionQA数据集来模拟人类对低级视觉的反应,探讨MLLMs在低级视觉感知中的自我意识。研究发现,MLLMs中的图像令牌存在明显的冗余,这不仅增加了计算负担,还影响了模型的效率。➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了显著的能力,但这些模型也存在幻觉问题,这限制了它们作为AI系统的可靠性,尤其是在涉及低级视觉感知和理解的任务中。
2025-06-12 08:57:35
772
原创 多模态大语言模型arxiv论文略读(118)
➡️ 论文作者:King Zhu, Qianbo Zang, Shian Jia, Siwei Wu, Feiteng Fang, Yizhi Li, Shawn Gavin, Tuney Zheng, Jiawei Guo, Bo Li, Haoning Wu, Xingwei Qu, Jian Yang, Zachary Liu, Xiang Yue, J. H. Liu, Chenghua Lin, Min Yang, Shiwen Ni, Wenhao Huang, Ge Zhang。
2025-06-12 08:51:25
307
原创 多模态大语言模型arxiv论文略读(117)
➡️ 研究动机:鉴于多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态任务中的卓越表现,研究团队提出了一种新的联邦学习框架——多模态大语言模型辅助联邦学习(MLLM-LLaVA-FL),旨在利用MLLMs的强大跨模态表示能力和丰富的开放词汇先验知识,解决数据异质性和长尾分布带来的挑战,同时提高数据利用效率和服务器计算能力的利用。➡️ 研究动机:现有的MIP数据集规模较小,且主要集中在受控环境下的特定场景,这限制了MIP定位算法在真实世界中的应用。
2025-06-11 08:54:49
519
原创 多模态大语言模型arxiv论文略读(116)
为了克服这一限制,研究团队提出了OccLLaMA,一个占用-语言-行动生成世界模型,旨在通过统一的多模态词汇和增强的自回归模型,实现对视觉、语言和行动模态的统一建模,从而提升自动驾驶系统的性能。➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在无OCR的文档理解任务中取得了显著的进展,但这些模型在处理高分辨率文档图像时,生成的视觉标记数量过多,导致GPU内存占用过高和推理时间过长,尤其是在多页文档理解任务中。
2025-06-11 08:52:49
415
原创 PDF识别的王?Doc2X
先来几组较难的pdf案例,看看实际效果多栏识别公式识别表格识别代码识别实现这一切的是Doc2X,由武汉智识无垠科技有限公司研发。团队核心成员均来自华中科技大学。华中科技大学的OCR一直非常强大,华为“天才少年”计划最高档薪资的廖明辉研究方向就是OCR。
2025-06-10 08:58:52
697
原创 多模态大语言模型arxiv论文略读(115)
此外,现有的多模态大语言模型(MLLMs)虽然在一般领域取得了显著进展,但在实际临床应用中仍存在不足,主要原因是这些模型主要基于互联网上的医学教科书和文献训练,缺乏真实和全面的医疗数据。P2Med-MLLM结合了一个大语言模型(LLM,Chinese-LLaMA-2)、一个预训练的视觉编码器(CLIP)和一个感知模块,通过三个阶段的训练策略,使模型能够处理多种模态、序列和时间序列数据输入,并生成多种任务的输出。➡️ 研究动机:现有的研究和解决方案在处理多图像任务时,要么性能下降,要么计算成本过高。
2025-06-10 08:47:10
703
原创 多模态大语言模型arxiv论文略读(114)
该数据集包含21,340个标注实例,涵盖了文本和图像内容。➡️ 研究动机:为了克服现有MSD研究的局限性,研究团队构建了一个新的多模态多轮对话立场检测数据集(MmMtCSD),并提出了一个基于多模态大语言模型的立场检测框架(MLLM-SD),旨在更准确地识别用户在多模态对话中的立场。➡️ 研究动机:为了克服现有MSD研究的局限性,研究团队构建了一个新的多模态多轮对话立场检测数据集(MmMtCSD),并提出了一个基于多模态大语言模型的立场检测框架(MLLM-SD),旨在更准确地识别用户在多模态对话中的立场。
2025-06-10 08:44:43
743
原创 多模态大语言模型arxiv论文略读(113)
➡️ 实验设计:本文在多个公开数据集上进行了实验,涵盖了多模态理解(如概念识别、属性识别、动作识别、光学字符识别等)、多模态感知(如对象定位、对象关系、对象互动等)、多模态推理(如常识推理、关系推理、逻辑推理等)以及特定任务(如社会经济分析、自然科学研究、医疗应用等)。➡️ 研究动机:为了克服现有视频问答系统在多跳推理和时间定位上的局限,研究团队提出了多跳视频问答(MH-VidQA)任务,旨在要求模型不仅回答涉及多个时间间隔的视觉信息的问题,还要定位这些时间间隔作为证据。
2025-06-09 08:44:16
1109
原创 多模态大语言模型arxiv论文略读(112)
实验在多图像描述任务和故事叙述任务上进行了广泛的测试,结果表明,SAM模型在这些任务上的表现显著优于现有方法,分别在组描述任务和故事叙述任务上提高了37%和22%的CIDEr分数。➡️ 研究动机:为了克服上述限制,研究团队提出了一种新的Video-MLLM——Video-CCAM,通过在视觉编码器和大语言模型(LLM)之间的中间投影器中应用交叉注意力层,并引入因果交叉注意力掩码(CCAMs),以提高模型处理视频时的时序一致性和效率。该架构能够在不牺牲原有语言模型能力的情况下,增强模型的多模态能力。
2025-06-09 08:42:10
892
原创 多模态大语言模型arxiv论文略读(111)
➡️ 研究动机:为了弥补现有方法的不足,研究团队提出了一种新的框架CaRDiff(Caption, Rank, and generate with Diffusion),该框架通过整合多模态大语言模型(MLLM)、接地模块和扩散模型,增强了视频显著性预测的能力。为了解决这些局限性,研究团队提出了一种新的多模态代理框架,旨在适应动态的移动环境和多样化应用,通过构建灵活的动作空间和结构化的存储系统,增强代理与GUI的交互能力和对新环境任务的适应性。该框架通过多阶段模型训练方法,逐步优化模型的多图像理解能力。
2025-06-06 08:44:44
735
原创 多模态大语言模型arxiv论文略读(110)
实验设计了不同的因素(如面部表情标签的多样性、面部图像的裁剪等),以及不同类型的评估指标(如准确率、UAR、WAR等),以全面评估EMO-LLaMA在不同条件下的表现。➡️ 研究动机:为了增强MLLMs在面部表情理解方面的能力,研究团队提出了一种新的MLLM——EMO-LLaMA,通过结合预训练的面部分析网络中的面部先验知识,提高模型对人类面部信息的提取能力。➡️ 研究动机:研究团队发现,现有的MLLMs在处理几何图形时存在严重的视觉感知不足和幻觉问题,这些问题严重限制了模型在几何问题解决中的表现。
2025-06-06 08:42:48
1130
原创 多模态大语言模型arxiv论文略读(109)
➡️ 研究动机:为了解决MLLMs在处理数学图表时的不足,研究团队提出了Math-PUMA,一种基于渐进式向上多模态对齐(Progressive Upward Multimodal Alignment, PUMA)的方法,旨在通过三个阶段的训练过程增强MLLMs的数学推理能力。然而,现有的MLLMs在心脏病诊断方面表现不佳,尤其是在ECG数据分析和长文本医疗报告生成的整合上,主要原因是ECG数据分析的复杂性和文本与ECG信号模态之间的差距。
2025-06-05 08:49:33
766
原创 多模态大语言模型arxiv论文略读(108)
实验设计了不同类型的评估基准,以全面评估MLLMs在不同场景下的表现。➡️ 研究动机:为了更好地理解MLLMs的优缺点,并为未来的应用和设计提供指导,研究团队对200个MLLMs的评估基准进行了全面回顾,涵盖了感知与理解、认知与推理、特定领域、关键能力和其他模态五个主要方面。➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的视觉-语言指令调优框架CROME,该框架通过引入轻量级的门控跨模态适配器(CROME-Adapter),在保持参数效率的同时,有效结合视觉和文本表示,从而促进跨模态理解。
2025-06-05 08:47:15
1028
原创 多模态大语言模型arxiv论文略读(107)
➡️ 问题背景:近年来,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)利用基于注意力机制的Transformer架构,在性能和泛化能力上取得了显著进展,覆盖了传统学习任务的广泛领域。在图表理解任务(DVQA)中,模型在推理问题上的表现最差。然而,现有的方法在处理不同类型的车牌时仍面临挑战,需要针对特定类型的车牌进行专门的开发,增加了数据收集、标注和模型训练的成本。➡️ 实验设计:研究团队在三个流行的MLLMs上进行了广泛的实验,评估了新收集的去偏数据集的有效性和ASD方法在去偏性能上的优越性。
2025-06-04 10:41:45
984
原创 多模态大语言模型arxiv论文略读(106)
VTC的训练过程无需额外的图像-文本对,实现了无需指令调优的特性。➡️ 研究动机:为了克服现有智能体在执行长期任务时的不足,研究团队提出了一种混合多模态记忆模块(Hybrid Multimodal Memory),旨在通过结构化知识和多模态经验的存储与利用,提升智能体在复杂环境中的任务执行能力。➡️ 研究动机:为了克服现有方法在处理长图像序列时的不足,研究团队提出了mPLUG-Owl3,旨在通过引入创新的超注意力块(Hyper Attention Blocks),提高模型在处理长图像序列时的效率和性能。
2025-06-04 10:41:28
968
原创 多模态大语言模型arxiv论文略读(105)
研究团队通过构建模拟数据集,评估了不同MLLMs在干扰环境中的表现,揭示了代理在面对干扰时的脆弱性,并提出了环境注入的对抗性设置,展示了这些干扰可以被恶意利用,导致不可预测的风险。➡️ 研究动机:为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响,研究团队通过类比人类认知过程中的语言触发(LTs)和领域触发(DTs),分析了现有方法的局限性,并提出了一种新的方法——原生语言提示(NatLan),以改善非主导语言问答中的知识提取。
2025-06-03 08:39:45
814
原创 多模态大语言模型arxiv论文略读(104)
例如,2B参数的Mini-Monkey在多个基准测试中超越了8B参数的InternVL2-8B模型,特别是在OCR相关任务中,Mini-Monkey在OCRBench上的得分比InternVL2-8B高12分。这一效应在轻量级MLLMs中尤为显著。➡️ 问题背景:多模态大语言模型(MLLMs)的快速发展显著提升了AI在理解、推理和交互方面的能力,但这些模型通常参数量巨大,计算负担沉重,导致它们主要部署在高性能的云服务器上,限制了其在移动设备、离线场景、能源敏感场景和隐私保护场景中的应用。
2025-06-03 08:37:49
1113
原创 多模态大语言模型arxiv论文略读(103)
实验设计了多种干扰类型(如噪声、模糊、天气、数字、图像拼接、图像裁剪和提示误导),以及不同类型的评估任务(如判别性和生成性任务),以全面评估模型在受干扰输入下的幻觉表现。现有的研究主要集中在使用标准的、未受干扰的基准数据集来评估幻觉,忽略了现实世界中输入图像经常遇到的各种干扰(如裁剪、模糊等),这些干扰对于全面评估MLLMs的幻觉至关重要。实验设计了不同阶段的图像理解技术,从传统的特征提取方法到深度学习技术的应用,再到多模态图像理解和跨模态学习,以及强化学习在图像理解中的应用。
2025-06-01 17:29:24
1140
原创 多模态大语言模型arxiv论文略读(102)
在此框架下,研究团队提出了一种无需训练的视觉提示机制,包括视觉-文本提示技术和离线到在线搜索(O2O-Search)方法,以自动识别最小支持集,提供参考示例,促进高效的情境学习。实验结果表明,与当前的最先进方法相比,该模型在Oxford Pets数据集上提高了4.45%的测试准确率,在Flowers102数据集上提高了2.92%的测试准确率,在Food101数据集上提高了0.23%的测试准确率。然而,现有的基于LLMs的方法主要依赖于文本输入,缺乏对视觉信息的充分整合,导致生成的布局虽然合理但不实用。
2025-06-01 17:26:24
1038
原创 多模态大语言模型arxiv论文略读(101)
基于理论分析和实证观察,研究团队揭示了学习不平衡背后的原因,并提出了CoMMIT方法,该方法结合了动态学习率调度器和辅助损失正则化,以促进每个模型组件的更新,防止学习梯度减少,提高学习平衡系数的估计准确性。➡️ 研究动机:现有的研究已经揭示了MLLMs在指令调优过程中,特征编码器和语言模型之间的学习不平衡问题,这可能导致学习梯度减少,进而影响模型的收敛速度和最终性能。实验结果表明,即使在较少的训练数据下,所提出的方法也能显著提高模型的性能,特别是在复杂的推理和视觉-组合问题上。
2025-05-30 09:36:20
1478
原创 多模态大语言模型arxiv论文略读(100)
大型模型(包括大型语言模型LLM、大型视觉模型LVM和大型视觉-语言模型LVLM)在农业领域的应用,能够帮助农民提高生产效率和产量,通过检测病虫害、土壤质量、种子质量等农业任务,以及利用图像、文本等信息帮助农民做出明智决策。➡️ 方法简介:研究团队提出了LLAVADI框架,通过特征嵌入蒸馏、logit级蒸馏、亲和力感知蒸馏和数据驱动的知识蒸馏四种方法,系统地研究了从强大的教师模型到学生模型的知识转移。本研究旨在全面探索MLLMs的知识蒸馏,回答“在MLLMs的知识蒸馏中,哪些方面最为关键”的问题。
2025-05-30 09:34:37
1017
原创 多模态大语言模型arxiv论文略读(九十九)
实验设计了不同因素的变化,如对象和部件级别的数据集组合,以及不同类型的评估指标,以全面评估模型在不同条件下的表现。➡️ 方法简介:研究团队提出了一种系统的方法,通过构建高质量的阿拉伯语多模态数据集,优化训练数据的选择和使用,确保Dallah能够使用反映阿拉伯世界语言多样性的高质量、相关多模态数据集进行微调。➡️ 问题背景:科学图表在科学交流中扮演着重要角色,但目前的研究主要集中在数据驱动的图表(如饼图、线图和条形图)上,对于包含复杂领域特定信息的框架图和流程图的解析能力有限。
2025-05-29 09:13:02
1081
原创 多模态大语言模型arxiv论文略读(九十八)
➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。4) 通过微调LLMs的少量参数来选择最终的实体。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。➡️ 问题背景:当前的多模态生成模型在视觉文本理解与生成任务中表现出色,但同时生成图像和文本时,由于视觉和语言模态之间的固有不一致性,通常会导致性能下降。
2025-05-29 09:11:57
1070
原创 多模态大语言模型arxiv论文略读(九十七)
实验结果表明,CHOPINLLM在理解标注和未标注的图表方面表现出色,能够有效提取图表中的潜在数据,并进行准确的推理。➡️ 方法简介:研究团队提出了一种系统的方法,通过结合原始数据值的对齐预训练、在端到端微调中随机替换图表图像为纯文本表示,以及在微调阶段要求模型先提取图表数据再回答问题,来增强MLLMs的图表理解能力。为了克服OOD问题并提高语义通信系统的性能,研究团队提出了一种利用多模态大语言模型(MLLMs)的方法,通过结合MLLMs的广泛知识和传统ML模型的领域专长,增强系统的OOD处理能力。
2025-05-28 08:52:09
1038
原创 多模态大语言模型arxiv论文略读(九十六)
当前的方法,如CLIP,虽然在文本-图像检索任务中表现出色,但在处理交错的视觉和语言输入时存在局限性,如对复杂文本的理解能力较低,以及在组合图像检索任务中的表现不佳。任务干扰是多任务学习中的一个基本且关键的问题,尤其是在多模态学习中,视觉和语言模态的任务差异导致了模型性能的下降。➡️ 问题背景:当前的多模态大语言模型(MLLMs)在自然场景中已经取得了显著的进展,但在遥感(RS)领域,这些模型主要集中在图像级别的视觉-语言对齐,缺乏对区域、点和像素级别的细粒度解释能力。
2025-05-28 08:49:35
952
原创 多模态大语言模型arxiv论文略读(九十五)
➡️ 方法简介:研究团队提出了一种名为MLLM-Refusal的方法,该方法通过优化拒绝扰动,使竞争的MLLMs在接收到包含扰动图像和安全问题的提示时,更可能拒绝响应。➡️ 方法简介:研究团队利用可视化素养的概念,开发了一种通用的评估框架,用于比较不同的多模态大语言模型(如GPT4-o、Claude 3 Opus、Gemini 1.5 Pro)以及与人类基线的表现。实验设计了不同的少样本设置,包括随机选择的示例和与查询图像-文本对相似的示例,以及使用和不使用CoT的设置,以全面评估模型在不同条件下的表现。
2025-05-27 08:44:43
1133
原创 多模态大语言模型arxiv论文略读(九十四)
然而,当前的图像描述引擎在提供完整和准确的注释方面存在局限性,尤其是在细粒度视觉线索的识别上。➡️ 研究动机:为了促进MLLMs在全面视觉感知方面的发展,研究团队提出了一种新的方法——感知融合(Perceptual Fusion),通过整合多种视觉专家模型作为图像先验,利用低成本但高效的MLLM作为中心枢纽,生成详尽的图像描述。为了填补这一空白,研究团队从数据-模型协同发展的角度,系统地回顾了MLLMs的相关工作,旨在揭示数据技术如何促进MLLMs的发展,以及训练良好的模型如何促进多模态数据技术的进步。
2025-05-27 08:42:30
944
原创 多模态大语言模型arxiv论文略读(九十三)
为了弥补这些不足,研究团队引入了一个大规模的主观反应指标数据集(SRI-ADV),该数据集通过收集不同人群在观看广告视频时的脑电图(EEG)和眼动追踪数据,提供了丰富的模态信息和全面的问答对,以评估视频的吸引力和隐含因素。研究旨在揭示这些模型的优势和局限性,并为未来的优化提供见解。为了更全面地理解视频内容,研究团队开发了一个新的大规模数据集SRI-ADV,并提出了一个超图多模态大型语言模型(HMLLM),旨在通过整合视频、EEG和眼动追踪数据,进行逻辑推理和语义分析,从而填补视频理解领域的空白。
2025-05-26 13:26:42
756
原创 多模态大语言模型arxiv论文略读(九十二)
现有的多模态数据集主要集中在感知任务上,而复杂的多模态推理任务,如解释图表、日常推理、批判性思维和问题解决等,需要感知和逻辑推理的结合。实验评估了不同因素(如视频描述、问题和答案的复杂性)对生成CoT的影响,并通过多个维度(如流畅性、背景描述、时空变化、对象关系和总结)对生成的CoT进行了质量评估。MindBench不仅包括精心构建的双语真实或合成图像、详细的注释、评估指标和基线模型,还特别设计了五种类型的结构化理解和解析任务,旨在全面评估模型解析文本和图像信息、识别元素间关系以及理解整体结构的能力。
2025-05-26 13:24:31
880
原创 多模态大语言模型arxiv论文略读(九十一)
实验设计了不同的任务和模态,以全面评估MMedAgent的性能。➡️ 研究动机:为了克服上述限制,研究团队构建了一个大规模的3D脑CT数据集(18,885个文本-扫描对),并应用临床视觉指令调优(CVIT)训练了能够生成放射学附合3D脑CT报告的BrainGPT模型。➡️ 方法简介:TokenPacker采用了一种从粗到细的策略,首先将视觉特征插值为低分辨率的点查询,然后通过区域到点的注入模块,利用高分辨率的多层级区域特征作为细粒度的参考键和值,更新低分辨率的点查询,生成紧凑且丰富的视觉令牌。
2025-05-23 08:51:34
1080
原创 多模态大语言模型arxiv论文略读(九十)
➡️ 论文标题:Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach➡️ 论文作者:Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain➡️ 研究机
2025-05-23 08:49:38
1212
原创 多模态大语言模型arxiv论文略读(八十九)
例如,给定“解析此网页的HTML代码”的指令时,LLaVA-1.5等模型生成的代码质量较差,无法保留原始网页的大部分特征,这限制了其在UI原型设计、自动化代理和可访问性等应用中的实用性。通过这些测试,研究团队评估了MLLMs在不同任务中的表现,发现即使是当前最先进的模型,如Gemini-Pro,在基本的感知任务和安全评估方面也存在显著的不足。➡️ 研究动机:为了克服现有数据选择方法的局限性,研究团队提出了一种新的数据选择方法,该方法利用图像-文本相关性和模型困惑度来评估和选择不同质量的数据。
2025-05-22 08:56:38
1041
原创 多模态大语言模型arxiv论文略读(八十八)
所有模型的表现都远低于人类的80.5%。➡️ 研究动机:为了应对ScreenPR任务的挑战,研究团队开发了Tree-of-Lens (ToL) 代理,利用先进的多模态大语言模型(MLLMs)的泛化能力,处理来自不同领域的GUI截图,并根据用户指示的屏幕上的任意点生成自然语言描述。➡️ 研究动机:为了提高医疗多模态模型的性能,研究团队提出了一种新的方法,通过利用“非盲”多模态大语言模型(MLLMs)来重新格式化PubMed的图像-文本对,以减少数据噪声并生成更高质量的医疗视觉问答(VQA)数据集。
2025-05-22 08:46:45
1243
原创 多模态大语言模型arxiv论文略读(八十七)
➡️ 实验设计:研究团队在四个最近的MLLM骨干模型(LLaVA-v1.5-7B/13B、MobileVLM-v2、InternVL-v1.5)上进行了实验,涵盖了MileBench基准中的多个多模态长上下文任务,包括时间多图像任务、语义多图像任务、针在草堆任务和图像检索任务。为了进一步理解这一现象,并探索其背后的原因,研究团队开发了多模态过度敏感基准(MOSSBench),旨在系统地评估MLLMs在面对不同类型的视觉刺激时的过度敏感程度,为未来的安全机制改进提供有价值的见解。
2025-05-21 08:49:25
959
原创 多模态大语言模型arxiv论文略读(八十六)
此外,研究团队提出了一种数据合成管道,基于40,000张图像和种子问题合成了320,000个新的问题-答案对,创建了MathV360K数据集,显著扩展了多模态数学推理的覆盖范围。研究团队通过使用LLMs和视觉指令调优作为接口,评估了各种视觉表示,提供了对不同模型和架构的新见解。➡️ 研究动机:为了解决现有评估方法在合成图像评估中的不足,研究团队提出了EVALALIGN,这是一种新的评估指标,旨在通过细粒度的人类反馈数据对多模态大语言模型(MLLMs)进行监督微调(SFT),以实现与人类评估偏好的一致性。
2025-05-21 08:46:51
1014
原创 多模态大语言模型arxiv论文略读(八十五)
➡️ 方法简介:研究团队设计了MR-MLLM框架,该框架通过共享查询融合机制、感知增强的跨模态集成方法和感知嵌入的提示生成方法,深化了视觉和语言模态之间的互动。感知增强的跨模态集成方法通过引入视觉感知模型的输出,如目标检测的边界框,捕捉微妙的视觉元素,丰富了对多模态内容的理解。此外,MR-MLLM显著提升了视觉感知模型在处理边缘案例检测任务中的能力,特别是在CODA检测数据集上,MR-MLLM将基线视觉感知模型的边缘案例平均召回率提高了2%,并赋予了封闭集训练的专用检测器检测新类别的能力。
2025-05-20 08:37:21
1130
原创 多模态大语言模型arxiv论文略读(八十四)
实验设计了不同的数据处理方法,包括滑动窗口大小的变化、文本上下文表示的使用,以及图像增强技术的应用,以全面评估模型在不同条件下的性能。➡️ 问题背景:近年来,随着大型语言模型(LLM)和多模态大型语言模型(MLLM)的快速发展,这些模型在自动化任务执行,尤其是移动设备上的GUI导航任务中展现出巨大潜力。然而,现有的研究和应用主要集中在单一模态的数据处理上,如仅使用RGB图像或热成像。然而,多模态大语言模型(MLLMs)的出现提供了一种新的方法,通过整合文本、视觉和音频模态,实现对驾驶视频的自动化分析。
2025-05-20 08:36:55
623
原创 多模态大语言模型arxiv论文略读(八十三)
然而,现有的遥感数据集,如RSI-CD、DOTA等,已不再适合新的任务需求。这些数据集主要由图像和注释组成,注释包括标签、边界框和文本,但通常预设了有限的场景和目标类别,主要考察模型对特定类别的识别能力,而忽视了模型对复杂场景和目标之间关系的深入理解和推理能力。➡️ 研究动机:为了适应新的LaGD范式,研究团队设计了一个高质量、多样化且统一的多模态指令跟随数据集(RS-GPT4V),旨在通过以下特点提升模型的泛化能力、复杂场景理解能力和推理能力:(1)泛化:训练模型学习任务之间的共享知识,并适应不同任务;
2025-05-19 08:52:25
1112
原创 多模态大语言模型arxiv论文略读(八十二)
➡️ 实验设计:在MovieChat数据集上进行了实验,实验设计了不同的组件(如链式思维、CLIP Score指导的帧采样、上下文学习)的变化,以及不同模式(全局模式和断点模式)的评估,以全面评估模型在不同条件下的表现。➡️ 研究动机:为了应对LLMs和MLLMs在特定领域训练时的灾难性遗忘问题,研究团队提出了一种新的模型无关的自解压方法——树生成(Tree Generation, TG),该方法通过将LLMs中的知识解压到训练语料库中,以减少遗忘问题。
2025-05-19 08:50:06
1104
原创 多模态大语言模型arxiv论文略读(八十一)
本文摘要涵盖了五篇关于多模态大语言模型(MLLMs)的研究论文,分别探讨了视觉认知差距、交错图像-文本生成、人类动作合成、对象感知知识增强以及知识密集型多模态自动语音识别(ASR)等主题。研究团队通过构建新数据集、提出新基准和评估指标,以及设计创新方法,揭示了MLLMs在不同任务中的表现与人类智能的差距,并提出了改进方向。例如,MaRs-VQA数据集和VCog-Bench基准用于评估MLLMs在抽象视觉推理任务中的表现;CoMM数据集旨在提高交错图像-文本生成的连贯性和一致性;FreeMotion框架探索了
2025-05-18 20:20:24
746
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人