随着我们迈向人工通用智能(AGI)的时代,出现了开创性的大语言模型(LLMs)。凭借它们强大的语言理解和推理能力,已经无缝地将其他模态(例如视觉)整合到LLMs中,以理解不同的输入。由此产生的多模态大型语言模型(MLLMs)在传统视觉任务和更复杂的多模态问题上都表现出了多样化的专业能力。然而,尽管它们表现出色,并且努力与人类偏好保持一致,这些尖端模型在可信度方面仍存在显著缺陷,导致事实上的错误、有害输出、隐私泄露等问题。
除了LLMs固有的弱点外,MLLMs的多模态特性引入了新的风险,例如对对抗性图像攻击的敏感性、图像中存在有害内容以及通过视觉环境越狱。由于新模态带来了各种复杂因素,包括跨多个方面的任务设计、多模态场景中的数据收集以及模态之间的相互作用,对MLLMs的可信度进行系统评估更具挑战性。然而,当前的工作通常只检查可信度的一个或几个方面,并在现象层面上对MLLMs进行有限任务的评估,关注图像中的威胁,但忽略了模态之间的交互。
MultiTrust,首个全面统一的基准测试,用于评估MLLMs在不同维度和任务上的可信度。MultiTrust中评估MLLMs可信度的5个主要方面,包括真实性、安全性、鲁棒性、公平性和隐私性,涵盖了模型在防止意外结果和确保对用户的社会影响方面的可靠性。
1 MultiTrust的框架
MultiTrust的框架是一个综合统一的系统,旨在评估多模态大型语言模型(MLLMs)的可靠性。该框架由多个部分组成,每个部分都有其特定的目标和功能。
官网:https://multi-trust.github.io
1.1 设计哲学和评估策略
设计哲学方面,MultiTrust遵循以下原则:
- 综合性:MultiTrust旨在全面评估MLLMs的可靠性,这包括了对模型的真实性、安全性、鲁棒性、公平性和隐私性等多个方面的考察。
- 统一性:通过建立一个统一的评估框架,MultiTrust能够确保所有评估任务都遵循相同的标准和方法,从而提高了评估的一致性和可比性。
- 深度:MultiTrust不仅关注模型表面的性能,还深入探究了模型内部的机制,包括模型的架构、训练过程以及它们如何影响模型的可靠性。
- 实践性:MultiTrust设计了多种任务,这些任务覆盖了从传统视觉任务到复杂的跨模态问题的广泛范围,确保了评估结果的实用性和相关性。
评价策略方面,MultiTrust采取了以下方法:
- 多模态风险评估:MultiTrust通过设计特定的任务来评估MLLMs在新颖多模态场景下的表现,例如对抗性图像攻击、有毒内容生成等。