同济、NUS等提出GalleryGPT,巧妙运用大模型收集绘画图像-艺术分析文本数据

719d9966138f35773645275aa79dfc18.gif

©PaperWeekly 原创 · 作者 | 宾燚

单位 | 同济大学、NUS

研究方向 | 视觉与语言

886f8855811b54b15add092d2471a3bc.png

动机和背景

现有的多模态大模型大多聚焦于视觉信息(图像/视频)理解,特别是日常视觉内容理解。然而,作为人类社会发展和精神生活的重要组成部分,艺术作品(如绘画)分析被视为人类创造力的特有表现,智能分析还鲜有研究。


本工作以此为切入点,探究了当前多模态大模型,如 GPT-4V 以及 Gemini,在艺术绘画分析中的表现,并发现现有模型在绘画分析中会受所学习到的先验知识影响,进而生成部分错误的分析,我们将这种现象称为 “LLM-biased Visual Hallucination”

针对这个问题,我们尝试从收集高质量的艺术绘画分析数据微调现有多模态大模型来增强对艺术绘画特有的视觉特性感知能力,如线条、光影以及构图等方面的感知能力。值得注意的是,本工作巧妙地利用大语言模型所学习到的海量先验知识,仅使用语言模型就可以收集到高质量的图像-文本数据用于微调增强多模态大模型。

127ccf6bfa010417e5c29a70c6927aa4.png

论文题目:

GalleryGPT: Analyzing Paintings with Large Multimodal Models

论文链接:

https://arxiv.org/abs/2408.00491

开源链接:

https://github.com/steven640pixel/GalleryGPT

fad8c539070c732cffe5bebaee83de9d.png

艺术绘画分析数据合成

我们精心收集了大约 19k 幅艺术绘画图片,利用大语言模型根据绘画的标题和艺术家姓名,标注仅关注视觉特征的整体艺术分析段落,并对特定的艺术分析层面如构图、色彩、光影、线条等进行标注,从而合成 50k 艺术绘画分析数据 PaintingForm。具体流程如下:

06762d3595aa48644e721be9222cc1a9.png

2.1 绘画数据收集

大量艺术绘画以数字化图像形式存储,我们选用 1st Art Gallery 网站作为艺术绘画图像的数据来源,首先爬取了 19295 幅著名的艺术家画作图像。为了确保大语言模型提供准确的艺术绘画分析标注,我们根据 Gemini 判断知道这些画作的标题和艺术家的姓名与否,从而过滤掉判断为未知或没有特定标题的画作,最终获得 18526 幅画作图像。不同艺术家的画作数量统计如下:

7476d77e2a50b5d2fe8de9ca6e5feb7b.png

2.2 艺术分析数据标注

对选取的艺术绘画进行人工标注需要标注者具备艺术品分析鉴赏方面的专业知识,这是困难且昂贵的,而且对大量的艺术绘画进行人工标注需要大量时间开销。

对于每一幅绘画,我们利用 GPT-4 和 Gemini 的海量先验知识,仅通过输入画作标题和艺术家姓名,不输入任何视觉信息,生成一段只关注艺术视觉特征的分析。其中不能提及画作标题和艺术家姓名,不能仅凭分析段落就轻易识别出对应的画作。

为了使分析数据更加多样,生成两方面的艺术分析:(1)整体分析;(2)对某一艺术层面包括构图、光影、色彩、形状、纹理、象征与图标、透视、运动与姿态、线条质量、尺度比例进行分析。对具体的艺术层面进行分析标注,我们要求 GPT-4 和 Gemini 分别提供 5 个给定画作可分析的层面,再利用两者输出的交集作为所选定层面进行标注。不同层面对应的绘画数量统计如下:

1ebdef59bb1b85c4342139cfbe1302e1.png

cb0837b5382d268b1a79c2bc266631f1.png

实验结果

我们使用 PaintingForm 对 ShareGPT4V 进行微调得到我们的 GalleryGPT 模型,来增强对艺术绘画特有的视觉特性感知能力和以视觉元素为重点的艺术分析能力。

本工作首先对 5000 幅相较非著名的艺术绘画的分析数据进行文本生成验证,采用字幕描述指标进行分析评估。同时测试了开源多模态大模型 LLaVA-1.5、Qwen-VL-Chat 和 ShareGPT4V,实验结果验证了高质量的绘画图像-艺术分析文本数据合成和微调增强多模态大模型的有效性。

677358abc9917c84d9516f1df562c2ff.png

我们还验证 GalleryGPT 对艺术绘画下游分析任务的表现,在现有的风格分类和问答数据集上的实验结果表明 GalleryGPT 显著优于其他开源多模态大模型,展示其对下游艺术绘画分析任务的泛化能力。

411e34fc260bfcc642d22d013aaec7ae.png

相较于一些主流的多模态大模型,GalleryGPT 展现出了对不著名画作进行全面艺术分析的能力。例子如下,GalleryGPT 不仅仅能简单的描述画作的真实视觉内容,也更注重分析微妙的艺术元素,包括色彩、光影、构图和透视等。

87d049f592e383b35de13d20543a76d4.png

此外,GalleryGPT 能够遵循艺术绘画分析的指令,给出输入绘画的整体艺术分析,不同艺术层面分析以及艺术风格等。指令对话的例子如下:

105eb59bb65d6fe918e95ea22ee52884.png

3134b22a8f5a0bf89124d628b810be40.png

总结

本工作聚焦于艺术绘画智能分析,当前主流的多模态大模型在进行艺术绘画分析时面临 LLM-biased Visual Hallucination 现象,会受所学习到的先验知识影响,识别为其他对象进而生成部分错误的分析。

因此我们巧妙地利用大语言模型收集高质量的绘画图像-艺术分析文本数据 PaintingForm,用于微调增强多模态大模型对艺术绘画特有的视觉特性感知能力,我们的 GalleryGPT 展现出优越的艺术绘画分析表现。在未来的研究工作中,我们将不局限于绘画,探索更广泛的艺术种类和作品分析。最后欢迎大家交流探讨,特别是有艺术专业背景的朋友

更多阅读

1c10cf7bd744266b0db78e2ddd51819b.png

009c9435f355ef1e6fcfb5c00d7a5f19.png

64e9d72c1b708c893f9a586fc751c223.png

2405f64db330fd1697dbf033c1dc3772.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

1f7a05ea4aace0770c6eac7c97176bbd.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

4852aec5227b4096b56e7ae129e5eaaa.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值