CV每日论文--2024.4.10

最新推荐文章于 2024-05-03 11:07:56 发布

计算机视觉每日论文

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量908

点赞数 22

文章标签：人工智能计算机视觉 ai 算法机器学习

本文链接：https://blog.csdn.net/u012854516/article/details/137564438

版权

1、Finding Visual Task Vectors

中文标题：寻找视觉任务向量

简介：本文介绍了一项名为“视觉提示”的技术，它可以通过现场示例来教授模型执行视觉任务，而无需进行额外的训练。在这项研究中，我们对最近的视觉提示模型MAE-VQGAN的激活进行了分析，并找到了任务向量，即编码了任务特定信息的激活。凭借这一发现，我们证明了可以识别任务向量并利用它们来指导网络执行不同的任务，而无需提供任何输入输出示例。为了找到任务向量，我们计算了每个任务的平均中间激活，并使用REINFORCE算法搜索任务向量的子集。由此产生的任务向量可以指导模型执行任务，比原始模型表现更好，而无需输入输出示例。

2、MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

中文标题：MA-LMM：用于长期视频理解的记忆增强型大型多模态模型

简介：最近，随着大型语言模型（LLMs）的成功，将视觉模型整合到LLMs中以构建视觉语言基础模型的兴趣日益增加。然而，现有的基于LLM的大型多模型模型（例如Video-LLaMA、VideoChat）只能处理有限数量的帧来进行短视频理解。在本研究中，我们专注于设计一种有效的模型，用于长期视频理解。与现有工作不同，我们的方法不是试图同时处理更多的帧，而是建议以在线方式处理视频，并将过去的视频信息存储在记忆库中。这样，我们的模型可以参考历史视频内容进行长期分析，而不会超过LLMs的上下文长度限制或GPU内存限制。我们的记忆库可以无缝地集成到当前的多模LLMs中。我们在多个数据集上进行了广泛的实验，涵盖了各种视频理解任务，包括长视频理解、视频问答和视频字幕生成，并且我们的模型实现了最先进的性能。您可以在https://boheumd.github.io/MA-LMM/获取到我们的代码。

3、Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

中文标题：Ferret-UI: 基于多模态LLMs的移动UI理解

简介：近期，多模态大语言模型（MLLMs）的进展备受瞩目。然而，这些通用领域的MLLMs在与用户界面（UI）屏幕进行理解和有效交互方面往往表现不佳。为此，我们提出了一种名为Ferret-UI的全新MLLM，专门设计用于增强对移动UI屏幕的理解能力，具备指称、接地和推理能力。

考虑到UI屏幕通常具有更长的纵横比，并包含比自然图像更小的感兴趣对象（如图标和文本），我们在Ferret-UI中引入了“任意分辨率”功能，通过放大细节和利用增强的视觉特征来提高表现。具体而言，我们根据原始纵横比将每个屏幕分成两个子图像（对于横屏屏幕进行纵向分割，对于竖屏屏幕进行横向分割），并对这两个子图像进行编码，然后再发送给LLMs进行处理。

为了训练Ferret-UI，我们精心收集了广泛的基本UI任务样本，包括图标识别、文本查找和小部件列表等。这些样本经过格式化处理，并通过区域标注来提供精确的指称和接地指令。为了增强模型的推理能力，我们还创建了一个高级任务的数据集，其中包括详细描述、感知/交互对话和功能推理。经过对策划的数据集进行训练，Ferret-UI展现出对UI屏幕的出色理解能力和执行开放式指令的能力。

为了评估该模型，我们建立了一个综合基准，涵盖了所有上述任务。结果显示，Ferret-UI不仅在大多数开源UI MLLMs上表现出色，而且在所有基本UI任务上都超过了GPT-4V。

计算机视觉每日论文

关注

22
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
CV每日论文--2024.4.10

在本研究中，我们专注于设计一种有效的模型，用于长期视频理解。我们在多个数据集上进行了广泛的实验，涵盖了各种视频理解任务，包括长视频理解、视频问答和视频字幕生成，并且我们的模型实现了最先进的性能。在这项研究中，我们对最近的视觉提示模型MAE-VQGAN的激活进行了分析，并找到了任务向量，即编码了任务特定信息的激活。考虑到UI屏幕通常具有更长的纵横比，并包含比自然图像更小的感兴趣对象（如图标和文本），我们在Ferret-UI中引入了“任意分辨率”功能，通过放大细节和利用增强的视觉特征来提高表现。
复制链接

扫一扫