能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

最新推荐文章于 2024-08-09 15:33:15 发布

诗者才子酒中仙

最新推荐文章于 2024-08-09 15:33:15 发布

阅读量1.6k

点赞数 19

分类专栏：物联网 / 互联网 / 人工智能 / 其他文章标签：人脸识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leyang0910/article/details/136428861

版权

物联网 / 互联网 / 人工智能 / 其他专栏收录该内容

531 篇文章 1 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

研究者对GPT-4、Gemini等多模态大语言模型进行了详尽的评测，揭示了它们在文本、代码、图像和视频处理中的能力与局限，强调了未来缩小模型与实际应用差距的重要性。

摘要由CSDN通过智能技术生成

本研究为深入理解 MLLMs 的潜力和局限提供了极有价值的参考，为未来多模态应用的发展提供了指导，以缩小多模态大模型与实际落地应用之间的差距。这对于推动通用人工智能技术在多领域的应用具有重要意义。

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而，它们的能力缺乏细致且偏应用级的评测，可信度和因果推理能力的对比也尚存空白。

近日，上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学（深圳）等院校合作发布 308 页详细报告，对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等热门的 LLM 和 MLLM 进行评测。根据 4 种模态（文本、代码、图像及视频）和 3 种能力（泛化能力、安全可信能力和因果推理能力）

了解本专栏

超级会员免费看

诗者才子酒中仙

关注

19
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

本研究聚焦于多模态大语言模型（MLLMs）的能力，通过定性对人工设计的测试样例进行评测，并深入探讨了闭源和开源 LLM/MLLMs 在文本、代码、图像和视频四个模态上的应用泛化能力、可信安全能力和因果推理能力。结果显示，尽管 OpenAI 的 GPT-4 和谷歌的 Gemini 这些多模态大模型在多模态能力上取得了重大突破，但它们仍然存在局限性和明显缺陷。本研究为深入理解 MLLMs 的潜力和局限提供了极有价值的参考，为未来多模态应用的发展提供了指导，以缩小多模态大模型与实际落地应用之间的差距。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诗者才子酒中仙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。