同济、NUS等提出GalleryGPT，巧妙运用大模型收集绘画图像-艺术分析文本数据

最新推荐文章于 2024-09-29 21:41:01 发布

PaperWeekly

最新推荐文章于 2024-09-29 21:41:01 发布

阅读量869

点赞数 6

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/141156416

版权

©PaperWeekly 原创 · 作者 | 宾燚

单位 | 同济大学、NUS

研究方向 | 视觉与语言

动机和背景

现有的多模态大模型大多聚焦于视觉信息（图像/视频）理解，特别是日常视觉内容理解。然而，作为人类社会发展和精神生活的重要组成部分，艺术作品（如绘画）分析被视为人类创造力的特有表现，智能分析还鲜有研究。

本工作以此为切入点，探究了当前多模态大模型，如 GPT-4V 以及 Gemini，在艺术绘画分析中的表现，并发现现有模型在绘画分析中会受所学习到的先验知识影响，进而生成部分错误的分析，我们将这种现象称为 “LLM-biased Visual Hallucination”。

针对这个问题，我们尝试从收集高质量的艺术绘画分析数据微调现有多模态大模型来增强对艺术绘画特有的视觉特性感知能力，如线条、光影以及构图等方面的感知能力。值得注意的是，本工作巧妙地利用大语言模型所学习到的海量先验知识，仅使用语言模型就可以收集到高质量的图像-文本数据用于微调增强多模态大模型。

论文题目：

GalleryGPT: Analyzing Paintings with Large Multimodal Models

论文链接：

https://arxiv.org/abs/2408.00491

开源链接：

https://github.com/steven640pixel/GalleryGPT

艺术绘画分析数据合成

我们精心收集了大约 19k 幅艺术绘画图片，利用大语言模型根据绘画的标题和艺术家姓名，标注仅关注视觉特征的整体艺术分析段落，并对特定的艺术分析层面如构图、色彩、光影、线条等进行标注，从而合成 50k 艺术绘画分析数据 PaintingForm。具体流程如下：

2.1 绘画数据收集

大量艺术绘画以数字化图像形式存储，我们选用 1st Art Gallery 网站作为艺术绘画图像的数据来源，首先爬取了 19295 幅著名的艺术家画作图像。为了确保大语言模型提供准确的艺术绘画分析标注，我们根据 Gemini 判断知道这些画作的标题和艺术家的姓名与否，从而过滤掉判断为未知或没有特定标题的画作，最终获得 18526 幅画作图像。不同艺术家的画作数量统计如下：

2.2 艺术分析数据标注

对选取的艺术绘画进行人工标注需要标注者具备艺术品分析鉴赏方面的专业知识，这是困难且昂贵的，而且对大量的艺术绘画进行人工标注需要大量时间开销。

对于每一幅绘画，我们利用 GPT-4 和 Gemini 的海量先验知识，仅通过输入画作标题和艺术家姓名，不输入任何视觉信息，生成一段只关注艺术视觉特征的分析。其中不能提及画作标题和艺术家姓名，不能仅凭分析段落就轻易识别出对应的画作。

为了使分析数据更加多样，生成两方面的艺术分析：（1）整体分析；（2）对某一艺术层面包括构图、光影、色彩、形状、纹理、象征与图标、透视、运动与姿态、线条质量、尺度比例进行分析。对具体的艺术层面进行分析标注，我们要求 GPT-4 和 Gemini 分别提供 5 个给定画作可分析的层面，再利用两者输出的交集作为所选定层面进行标注。不同层面对应的绘画数量统计如下：

实验结果

我们使用 PaintingForm 对 ShareGPT4V 进行微调得到我们的 GalleryGPT 模型，来增强对艺术绘画特有的视觉特性感知能力和以视觉元素为重点的艺术分析能力。

本工作首先对 5000 幅相较非著名的艺术绘画的分析数据进行文本生成验证，采用字幕描述指标进行分析评估。同时测试了开源多模态大模型 LLaVA-1.5、Qwen-VL-Chat 和 ShareGPT4V，实验结果验证了高质量的绘画图像-艺术分析文本数据合成和微调增强多模态大模型的有效性。

我们还验证 GalleryGPT 对艺术绘画下游分析任务的表现，在现有的风格分类和问答数据集上的实验结果表明 GalleryGPT 显著优于其他开源多模态大模型，展示其对下游艺术绘画分析任务的泛化能力。

相较于一些主流的多模态大模型，GalleryGPT 展现出了对不著名画作进行全面艺术分析的能力。例子如下，GalleryGPT 不仅仅能简单的描述画作的真实视觉内容，也更注重分析微妙的艺术元素，包括色彩、光影、构图和透视等。

此外，GalleryGPT 能够遵循艺术绘画分析的指令，给出输入绘画的整体艺术分析，不同艺术层面分析以及艺术风格等。指令对话的例子如下：

总结

本工作聚焦于艺术绘画智能分析，当前主流的多模态大模型在进行艺术绘画分析时面临 LLM-biased Visual Hallucination 现象，会受所学习到的先验知识影响，识别为其他对象进而生成部分错误的分析。

因此我们巧妙地利用大语言模型收集高质量的绘画图像-艺术分析文本数据 PaintingForm，用于微调增强多模态大模型对艺术绘画特有的视觉特性感知能力，我们的 GalleryGPT 展现出优越的艺术绘画分析表现。在未来的研究工作中，我们将不局限于绘画，探索更广泛的艺术种类和作品分析。最后欢迎大家交流探讨，特别是有艺术专业背景的朋友。

更多阅读