CV每日论文--2024.7.4

最新推荐文章于 2024-09-05 16:34:02 发布

计算机视觉每日论文

最新推荐文章于 2024-09-05 16:34:02 发布

阅读量870

点赞数 13

文章标签：计算机视觉深度学习人工智能算法机器学习

本文链接：https://blog.csdn.net/u012854516/article/details/140258803

版权

1、InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

中文标题：InternLM-XComposer-2.5：支持长上下文输入和输出的多功能大视觉语言模型

简介：我们推出了InternLM-XComposer-2.5（简称IXC-2.5），一款具有卓越处理长序列数据能力的多功能语言模型，能够处理和生成广泛的文本与图像内容。IXC-2.5凭借其强大的7B参数规模，展现了媲美GPT-4V的性能，即便是在处理包含24K交替图像与文本的复杂情境下，也能通过RoPE技术平稳地适应更长达96K的上下文环境。这种对长序列的出色掌控力，使其在需求涵盖大量输入输出信息的任务中表现优异。

相较于其前身2.0版，IXC-2.5在视觉语言理解领域实现了三大突破性进步：一是具备了对超高分辨率图像的深度解析能力；二是能够精细解读视频内容；三是支持多轮次、多图片的交互式对话。此外，IXC-2.5通过引入额外的LoRA参数，增强了两项文本图像融合的应用场景：第一，能够创建结构化且内容丰富的网页；第二，能生成结合高品质图文的文章。这些功能的实现，得益于IXC-2.5在28个评估基准上的出色表现，其中在16项上超越了当前开源领域的顶尖模型。同时，在16个核心任务上，IXC-2.5与GPT-4V及Gemini Pro等强劲对手展开了激烈的比拼，展现出不俗的实力。

目前，InternLM-XComposer-2.5已对外开放，可于https://github.com/InternLM/InternLM-XComposer获取源代码，供研究者和开发者们探索和应用。

2、BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

中文标题：BACON：使用概念袋图增强您的 VLM，以减轻幻觉

简介：本文创新性地引入了“概念袋图”（BACON）这一框架，旨在增强模型的语言理解能力，使之能够借鉴视觉语言模型（VLMs）的优势，从而在诸如物体检测、视觉问答（VQA）以及图像合成等下游任务上取得显著提升。鉴于现实世界中的视觉场景往往蕴含着错综复杂的对象间关系，BACON巧妙地将这些注解拆解至最基本单元，并以图形化的形式予以呈现。这种基于元素的直观表达，加之灵活的结构重组，有效规避了定位困难的问题。

借助精心设计的引导策略，辅以现成的VLMs与分割算法，我们构建了一个包含10万张标注图像的庞大数据库。此举不仅令VLMs展现出了非凡的才能——比如，精确地生成BACON图表，将自然语言提示转化为BACON格式，还能生动地再现由BACON定义的场景布局，并支持通过互动对话实时调整BACON中的组成要素。一系列覆盖检测、VQA与图像生成等领域的全面实验证明，BACON成为了实现过往难以触及任务的关键，亦或是在现有顶尖方案中脱颖而出的制胜法宝，其价值不可小觑。

3、ACTRESS: Active Retraining for Semi-supervised Visual Grounding

中文标题：ACTRESS：半监督视觉基础的主动再训练

简介：半监督视觉定位（SSVG）作为一项前沿研究课题，其特征在于稀缺的标注数据和对多模态理解的需求，构成了一个颇具挑战性的领域。先前的探索，如RefTeacher，曾通过师生架构引入伪置信度指导及注意力机制监督，初步涉足这一难题。不过，该途径与现今基于Transformer架构的顶尖视觉定位系统格格不入。这些系统采取直接预测策略，跳过了区域提议和前景二元分类步骤，故而缺失置信度评分，使得它们与RefTeacher的协同工作受阻。再者，因数据增强策略的差异，造成师生模型输入间的几何偏差，进而自然地引发了注意力约束下的配准难题。

为解决上述局限，本文献提出了一种名为ACTRESS的半监督视觉定位主动重训练流程。此法首先借由附加量化检测模块，强化模型的检测置信水平。随后，ACTRESS整合了主动采样与选择性重训练双策略。主动采样技术凭借评估三大核心指标——忠诚度、稳健性及置信度，循环甄选出高质伪标签，以最大化无标签数据的效能。选择性重训练机制则通过周期性重置部分模型参数，实施模型重训，助其摆脱局部最优陷阱。一系列全面的测试结果证实，ACTRESS在广泛应用的基准数据集上展现了超群的效能。

简而言之，面对SSVG任务的固有复杂性，本文提出的ACTRESS方案，通过增强模型置信度、优化伪标签质量以及促进全局最优解搜索，有效提升了基于Transformer的视觉定位模型在半监督环境下的表现。

计算机视觉每日论文

关注

13
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
CV每日论文--2024.7.4

此外，IXC-2.5通过引入额外的LoRA参数，增强了两项文本图像融合的应用场景：第一，能够创建结构化且内容丰富的网页；IXC-2.5凭借其强大的7B参数规模，展现了媲美GPT-4V的性能，即便是在处理包含24K交替图像与文本的复杂情境下，也能通过RoPE技术平稳地适应更长达96K的上下文环境。简而言之，面对SSVG任务的固有复杂性，本文提出的ACTRESS方案，通过增强模型置信度、优化伪标签质量以及促进全局最优解搜索，有效提升了基于Transformer的视觉定位模型在半监督环境下的表现。
复制链接

扫一扫