统一多模态大模型评估,加速多模态智能涌现
始智AI wisemodel 2024年07月25日 22:17 北京
随着人工智能研究的深入发展,多模态大模型,如GPT-4V和开源社区的LLaVA等模型,已经成为了学术界和产业界的热点。但是,这些先进的模型需要一个有效的评估框架来准确衡量其性能,而这并非易事。
一方面,不同模型采用的提示(prompt)和答案后处理方式多种多样,可能导致性能评估结果大相径庭,正如HuggingFace在其博客中提及的“1001 flavors of MMLU” 所示,即同一评测数据集的不同实现可能会造成极大的分数差异,甚至改变模型在排行榜上的排序。
另一方面,评估过程中的数据集获取与处理也充满挑战,尤其是当面对尚未广泛可用的旧数据集时,研究人