CV每日论文--2024.7.23

计算机视觉每日论文

于 2024-08-12 09:05:45 发布

阅读量516

点赞数 19

文章标签：人工智能计算机视觉机器学习算法深度学习

本文链接：https://blog.csdn.net/u012854516/article/details/141122001

版权

1、DEPICT: Diffusion-Enabled Permutation Importance for Image Classification Tasks

中文标题：DEPICT：图像分类任务的扩散排列重要性

简介：我们提出了一种基于排列的图像分类器解释方法。现有的图像模型解释方法,如激活图,仅限于像素空间中的基于实例的解释,难以理解模型的全局行为。相比之下,用于表格数据分类器的基于排列的解释方法通过比较对数据进行排列前后的模型性能,来衡量特征的重要性。

我们针对基于图像的模型,提出了一种基于概念排列的解释方法。给定一个带有特定概念标签的图像数据集,我们在文本空间中对示例中的概念进行排列,然后利用文本-图像扩散模型生成对应的图像。特征重要性反映在相对于未排列数据的模型性能变化上。当应用于一组概念时,该方法可以生成特征重要性排名。

我们展示了这种方法在合成和真实世界的图像分类任务中,能够恢复潜在的模型特征重要性。相比于基于像素的解释方法,这种基于概念排列的方法提供了更加全面和可解释的模型解释。

2、On Pre-training of Multimodal Language Models Customized for Chart Understanding

中文标题：为图表理解定制的多模态语言模型的预训练

简介：最近的研究表明,针对特定任务领域对多模态大语言模型(MLLM)进行定制化训练,能够取得很好的效果,尤其是在科学图表理解任务中。这些研究通常利用专门的数据集进行视觉指导式微调,以提高图表领域内的问题回答(QA)准确性。

然而,这些方法经常忽略了自然图像说明预训练数据和数字图表图像-QA数据之间的基本差异,特别是模型从图表中提取基础数字值的能力。本文通过探索训练过程来改善MLLM对图表的理解,解决了这个问题。

我们提出了三个关键发现:1) 将原始数据值纳入对齐预训练中,可以显著提高对图表数据的理解能力; 2) 在端到端微调期间,将图像替换为其文本表示,可以将语言推理能力转移到图表解释技能上; 3) 要求模型首先提取基础图表数据,然后再回答问题,可以进一步提高准确性。

基于这些发现,我们介绍了CHOPINLLM,这是一个专门用于深入理解图表的MLLM。CHOPINLLM可以有效地解释各种类型的图表,包括未注释的图表,同时保持强大的推理能力。此外,我们建立了一个新的基准来评估MLLM对不同类型图表在各种理解水平上的表现。实验结果表明,CHOPINLLM在理解各种类型的注释和未注释图表方面表现出色。

3、T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

中文标题：T2V-CompBench：组合文本到视频生成的综合基准

简介：文本到视频(T2V)生成模型已经取得了显著进展,但它们将不同的对象、属性、动作和动作组合成视频的能力仍未得到充分探索。先前的文本到视频基准测试也忽略了评估这种重要的组合能力。

在这项工作中,我们进行了第一次系统研究组合文本到视频生成。我们提出了T2V-CompBench,这是专门针对组合文本到视频生成的第一个基准测试。T2V-CompBench包含了组合性的多个方面,包括一致属性绑定、动态属性绑定、空间关系、动作绑定、对象交互和生成数学能力。

我们进一步精心设计了基于多模态语言模型(MLLM)、基于检测和基于跟踪的评估指标,这些指标能更好地反映出七个提议类别的组合文本到视频生成质量,共有700个文本提示。我们验证了所提出的度量的有效性,并证实了它们与人类评估的相关性。

我们还对各种文本到视频生成模型进行了基准测试,并在不同模型和不同组合类别之间进行了深入分析。我们发现,对于当前的模型来说,组合文本到视频生成是非常具有挑战性的。我们希望这项工作能为未来的研究方向提供启示。

计算机视觉每日论文

关注

19
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
CV每日论文--2024.7.23

给定一个带有特定概念标签的图像数据集,我们在文本空间中对示例中的概念进行排列,然后利用文本-图像扩散模型生成对应的图像。现有的图像模型解释方法,如激活图,仅限于像素空间中的基于实例的解释,难以理解模型的全局行为。相比之下,用于表格数据分类器的基于排列的解释方法通过比较对数据进行排列前后的模型性能,来衡量特征的重要性。我们进一步精心设计了基于多模态语言模型(MLLM)、基于检测和基于跟踪的评估指标,这些指标能更好地反映出七个提议类别的组合文本到视频生成质量,共有700个文本提示。
复制链接

扫一扫