微软多模态大模型 Kosmos-2｜局部理解能力，解锁实体级交互

最新推荐文章于 2024-08-30 17:20:20 发布

sam5198

最新推荐文章于 2024-08-30 17:20:20 发布

阅读量312

点赞数

分类专栏： AI人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/elinkenshujuxian/article/details/131449885

版权

微软亚洲研究院发布了KOSMOS-2，相较于KOSMOS-1，它具备更强的Grounding Capability，能实现对象级交互，理解图像中的实体。KOSMOS-2在Phrase grounding和Referring expression comprehension任务中表现出色，显示了其在零样本设置下理解图像和语言的强大能力。通过构建的GRIT数据集，KOSMOS-2在保持基础语言任务性能的同时，提升了图像理解和描述能力，为具身AI的发展迈出了重要一步。

摘要由CSDN通过智能技术生成

三个多月前，微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中发布了一个强大的多模态大模型 Kosmos-1，成功将感知与语言对齐，在 ChatGPT 的多轮对话与推理判断能力的基础上增加了图像识别与理解的能力，将大模型的能力从语言向视觉推进了一小步

而三个多月后，就在昨天，微软亚洲研究院更进一步，推出了 KOSMOS-1 的加强升级版 KOSMOS-2，相较于早期的多模态大模型，KOSMOS-2 解锁了多模态大模型的 Grounding Capability，获得了与输入进行对象级交互的能力，换言之 KOSMOS-2 可以真正将语言与视觉世界相互联系，举一个例子，如下图所示，当我输入一张图片，我希望让模型描述其中有什么时，模型并不仅仅是语言上给出一段文字说一个雪人在烤火，并且我们希望模型可以真正识别到哪里是雪人哪里是火堆，而 KOSMOS-2 则真正具有了这种不仅仅是语言上的描述，并且还可以识别图像之中实体的能力。