能否超越Sora? 一起来了解Google新模型Gemini

 

 

最近,openai推出了Sora大火,Google 也推出了名为 Gemini 的新型多模态大模型,在 AI 模型领域掀起了热烈讨论,甚至一度超越了 GPT-4 的关注度。那么,Gemini 到底具备哪些具体功能?相较于其他大型模型,它有何独特之处呢?让我们一同探索。

 

 

简介

这是 Google 开发的一系列高性能多模式模型。我们在图像、音频、视频和文本数据方面联合训练 Gemini,目的是构建一个模型,该模型既具有跨模态的强大通才能力,又在各个领域具有前沿的理解和推理性能。

官网:https://www.gemini.com

图片

 

Google发布了多个演示视频,展示了Gemini的多模态能力。其中包括:识图能力,可以理解图像/视频内容并进行总结推算。例如,根据不同颜色的毛线给出可编织的物体;识别吉他、电吉他并提供对应演奏音频;智能追踪视频中物体的运动轨迹,即使被遮挡也能保持判断。

图片

Gemini还具备推理能力,能根据用户需求个性化定制体验。例如,询问如何为喜欢动物的女儿庆祝生日,Gemini会基于“喜欢动物”这点,提供多种活动场景,并撰写详尽的“产品需求文档”,精心安排各项细节。用户点击感兴趣的选项,Gemini能迅速给出更多可行的建议和方案。

图片

 

多模型

尽管 Gemini 和 GPT-4V 提供类似的功能,Google 在发布 Gemini 时特别强调了其「原生多模态」能力。与传统的多模态模型在后期阶段才整合文本、视频、音频处理不同,Gemini 从一开始便对各模态同时进行预训练,并通过多模态数据进一步微调,类似于一个团队从头到尾负责所有任务,确保了更高效的协作和执行。

传统多模态大模型训练方法:

图片

 

这样的训练方法有助于 Gemini 无缝理解、操作和组合不同类型的信息。

毫无疑问,谷歌是一家软件公司,谷歌Gemini是一款软件产品,但是谷歌胜就胜在硬件上。谷歌强调Gemini是一个功能强大的多模态模型(Multimodal Model)。多模态指的是结合了多种感官输入形式来做出更明智的决策,相当于是模型可以用复杂、多样和非结构化的数据来求解。

应用

从发布日起,Gemini可开始应用于Bard和Pixel 8 Pro智能手机,并将很快与谷歌服务中的其他产品集成,包括Chrome、搜索和广告等。

图片

 

另外,谷歌还推出了“人工智能超级计算机”概念。谷歌云描述它为一个集成系统,包含开放软件、性能优化硬件、机器学习框架和灵活的消费模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值