遥遥领先的大语言模型GPT-4的图像合成能力如何?

本文详细研究了GPT-4在图像合成中的保真度,通过构建DeepArt基准,对比手绘图像与AI生成的图像,揭示了模型在纹理特征上的局限性。研究还提出了基于GPT-4的编码-解码方法,并探讨了AIGC技术的未来发展方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

遥遥领先的多模态大语言模型GPT-4的图像合成能力如何?今天分享一个建立了一个用于评估GPT-4生成图像中纹理特征保真度的基准,其中包括手工绘制的图片及其AI生成的对应物。本研究的贡献有三个方面:首先,对基于GPT-4的图像合成特征的保真度进行了深入分析,这是对这一最先进模型的首次研究。其次,定量和定性实验充分揭示了GPT-4模型在图像合成方面的局限性。第三,编制了一个独特的手工绘图和相应的GPT-4生成图像的基准,引入了一个新的任务来推动AI生成内容(AIGC)的保真度研究。

数据集下载链接:

https://github.com/rickwang28574/DeepArt。

介绍

由GPT-4代表的多模态大语言模型(LLMs)展示了通过文本提示生成相应合成图像的强大功能。它们可以解释用户提供的文本描述,并将其转换为视觉表示。其强大的生成能力和易于操作性使其广泛应用于许多领域,包括但不限于绘画创作、产品设计、人机交互、医学分析等。然而,其强大的生成能力仍然存在许多缺陷,往往容易在不同程度上丢失、扭曲和伪造纹理特征。虽然有几项研究调查了人工智能生成的图像与自然或人工创建的图像之间的差异,但大多数研究主要集中在特定的图像生成模型如Stable Diffusion。与特定的生成网络不同,GPT-4在现代社会的日常生活中具有更广泛的应用,因此有必要对其图像生成能力进行更深入的研究,以满足社会需求和趋势。然而,现有的工作目前主要集中在探索GPT-4的生成能力的广度,即探索其在各种应用场景中的表现。相反,对于GPT-4生成图像中纹理特征的保真度的研究仍然较少。

一个非常直观的解决方案是将自然或制造的图像与GPT-4生成的图像进行比较。然而,对这种方法的评估必须根据具体的基准进行。值得注意的是,目前用于评估大型多模态模型(如GPT-4)性能的类似基准有限。事实上,以GPT-4为代表的各种大型多模态模型可以大量生成合成图像。获取足够的合成图像并不是一项具有挑战性的任务。然而,需要注意的是,这些大型模型的图像生成能力依赖于广泛的数据预训练,因此生成的模型图像往往具有显著的随机性。这种固有的随机性可能会导致难以在模型生成的样本和真实世界图像之间建立清晰的对应关系,这将在研究中引入一定的不确定性。

为了解决这一问题,本文首先引入了一个原始的基准,其中包括手绘图像。这批手绘图像来自著名画家丰子恺。这些图像代表了真正的人类艺术表达,具有很高的艺术水平,可通过Open Access Program获得,并且可以在合法的前提下用于研究目的。然后,作者提出了一种基于GPT-4的“编码-解码”映射方法,利用这种方法创建与原始数据相对应的合成数据,从而形成了一对对应且有意义的人造数据和生成图像。到目前为止,已成功开发和定义了一个新颖的数据基准:DeepArt。最后,本文对DeepArt基准进行了初步的定量和定性评估,并提出了GPT-4所代表的多模态大型模型中“图像保真度”的新挑战。

本研究主要贡献有四个方面:

● 本文是第一个研究基于当前最先进的大语言模型GPT-4的图像合成特征保真度的研究。以手绘图像为起点,深入探讨了基于GPT-4生成的图像与人工图像之间的特征差异。

● 提出了一种基于GPT-4的“编码-解码”映射方法,利用这种方法创建与原始数据相对应的合成数据。这种方法具有很高的可扩展性,并且可以用作生成其他类型数据样本的参考。

● 定量和定性实验反映了GPT-4大语言模型在图像合成方面的不足,并展示了本文定义的基准和任务中“图像保真度”的新挑战。

● 收集并构建了一组人造图像和相应的GPT-4生成图像的数据集。提供开放访问链接:http

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值