能否超越Sora? 一起来了解Google新模型Gemini

最新推荐文章于 2024-09-27 16:14:00 发布

程序员与诗人

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量363

点赞数 9

文章标签：人工智能 AI 模型

本文链接：https://blog.csdn.net/m0_58552717/article/details/136208846

版权

AI 模型专栏收录该内容

11 篇文章 0 订阅

订阅专栏

最近，openai推出了Sora大火，Google 也推出了名为 Gemini 的新型多模态大模型，在 AI 模型领域掀起了热烈讨论，甚至一度超越了 GPT-4 的关注度。那么，Gemini 到底具备哪些具体功能？相较于其他大型模型，它有何独特之处呢？让我们一同探索。

简介

这是 Google 开发的一系列高性能多模式模型。我们在图像、音频、视频和文本数据方面联合训练 Gemini，目的是构建一个模型，该模型既具有跨模态的强大通才能力，又在各个领域具有前沿的理解和推理性能。

官网：https://www.gemini.com

Google发布了多个演示视频，展示了Gemini的多模态能力。其中包括：识图能力，可以理解图像/视频内容并进行总结推算。例如，根据不同颜色的毛线给出可编织的物体；识别吉他、电吉他并提供对应演奏音频；智能追踪视频中物体的运动轨迹，即使被遮挡也能保持判断。

Gemini还具备推理能力，能根据用户需求个性化定制体验。例如，询问如何为喜欢动物的女儿庆祝生日，Gemini会基于“喜欢动物”这点，提供多种活动场景，并撰写详尽的“产品需求文档”，精心安排各项细节。用户点击感兴趣的选项，Gemini能迅速给出更多可行的建议和方案。

多模型

尽管 Gemini 和 GPT-4V 提供类似的功能，Google 在发布 Gemini 时特别强调了其「原生多模态」能力。与传统的多模态模型在后期阶段才整合文本、视频、音频处理不同，Gemini 从一开始便对各模态同时进行预训练，并通过多模态数据进一步微调，类似于一个团队从头到尾负责所有任务，确保了更高效的协作和执行。

传统多模态大模型训练方法：