什么是AIGC?
人工智能内容生成(AIGC)是一种利用人工智能技术实现自动创作信息的方法。举例来说,最近备受瞩目的DALL·E 2、Midjourney、Stable Diffusion等AI系统拥有令人惊叹的能力,能够通过自然语言描述产生逼真的图像和艺术作品(Text-to Image)。类似地,它们也可以从上传的图像数据中生成相应的文本描述。即,将一张图像输入模型,模型会输出一句能够描述图像场景的文本句子(Image-to-Text)。
使用卷积神经网络提取最重要的属性(来源:Pytorch)
ArtELingo(艺术语灵)Benchmark数据集
ArtELingo(艺术语灵)是一个基准数据集,旨在促进跨语言和跨文化多样性的研究。相较于之前的ArtEmis项目(一个包含来自WikiArt的80K幅艺术作品的集合,带有0.45M个情感标签和英文描述),ArtELingo在此基础上新增了0.79M个阿拉伯语和中文标注,以及4.8K个西班牙语标注,用于评估“文化转移”性能。超过51K幅艺术作品在三种语言中拥有五条以上不同的标注,这种的多样性标签使得研究人员能够研究跨语言和文化之间的相似性和差异性。
不同语言母语者对同一艺术作品的情感和文字描述存在显著差异
我们利用不同种族和母语者的标注数据来观察情感体验。不同代表的人们对相似的场景有不同的反应。 例如最后一组例子中,说英语和中文的人对枯竭的植物都给出了悲伤的情感,而阿语文化者却给出了满意的情感表现。 举一个例子,在北欧国家出生和长大的人在茂密的森林中会比在沙漠中更舒服,但贝都因人(拉伯人的一支)感觉在沙漠中比在森林中更适应。
数据的挑战
BasicFinder大模型项目标注界面截图
在训练模型过程中,收集高质量的数据是至关重要的。构建出色的模型需要强大而多样化的数据支持。然而,获得这样的数据并不容易,以下是一些值得考虑的关键因素:
- 数据量:ArtELingo项目的突出之处在于完善了阿拉伯语、中文和西班牙语等多种语言的信息。与之前的英语数据集相比,该项目之后将涵盖超过50种语言的数据。
- 数据标签设计:明智的标签设计有助于有效控制整个项目的数据成本。
- 描述生成:每张图像都需要经过多位标注员编写描述,确保这些描述准确、吸引人,与图像内容相符。
- 标注质量控制:如果内容太短,或者与其他艺术品的标题太相似,则会被拒绝。 此外,由多名审核员需要进行手动审阅检查,确保标题反映了所选的情感标签和艺术品的细节。
- 标注格式:将图像与相应的多个字幕配对,以适应模型训练的格式。
- 数据划分:将数据集分为训练、验证和测试集,以便对模型性能进行全面评估。
通过高质量的数据和标注作业,将能够建立一个更加精准和有趣的图像描述生成模型。标注质量是确保模型性能的关键因素之一
预训练BERT模型
在情感预测实验中,研究人员对预训练的BERT模型进行微调。对于每种语言,使用仅在该语言上预训练的BERT模型。具体来说:
特定语言的模型在ArtELingo的子集上进行微调,该子集包含用同一语言编写的标题。另一方面,多语言模型是预先训练的XLMroBERTa,它们在整个ArtELingo数据集上进行微调。对于每个模型,我们将预训练模型微调了5个时期。我们使用了ADAMW优化器,学习率为2 × 10^-5,并采用线性调度。
总结
希望我们的基准(Benchmark)和基线(Baselines)将有助于简化未来基于视觉的语言模型的研究。此外,ArtELingo 还可以提供跨文化异同的实证示例。 社会学家和文化心理学家可以基于ArtELingo提出假设并进行实地研究。
三个数据集的比较: ArtELingo 拥有来自 ACES 的1.2M条标注* 阿拉伯语 (A)、中文 (C)、英语 (E) 和西班牙语 (S)。
数据、代码和模型可在以下地址公开获取:
官网:www.artelingo.org
代码:github.com/Vision-CAIR/artelingo
数据:https://opendatalab.com/ArtELingo/download