LLaMafia的编辑对于Google Gemini的快速评论

本文探讨了Gemini,一个原生多模态的预训练模型,其在文本、代码、图片和视频等模态上的能力超越了GPT-4,特别是在视频领域。文章还分析了模型的未来发展方向,包括与GPT家族的竞争以及开源与闭源模型之间的差距。
摘要由CSDN通过智能技术生成

本文版权归属原作者所有。

本人近期繁忙,且部分内容需要保密。可能将暂不更新,特此为关注本账号的粉丝声明,与大家共同进步。

Executive editors of LLaMafia

llamafia.agi@gmail.com
https://github.com/LLaMafia

基本面

Gemini 是一个原生多模态的预训练 Base model checkpoint

  • 原生多模态

    文本,代码,图片,视频,语音,全部 tokenized 成 token 序列,交给一个基础模型做所有事情

    已有的开源多模态模型一些是把图像部分和语言部分拼接在一起,Gemini 并不是这种

  • Base model check point
    这个模型似乎并没有经过很强的 SFT / RLHF,在 report 中也并没有大篇幅描术RLHF的作用(vs.LLaMA2的report重点是 RLHF)

  • 但是在 Bard 上上线的 Gemini Pro 应该是经过了一定程度的 alignment

原生多模态,特别是 vision /video 的部分,是最大的技术重点,跟已发布的模型,包括 GPT-4,形成代际差距

  • Gemini 开发中最难的点,应该是如何把video /image 与 text 合在一起放入一个基础模型训练,在每个模态都足够好/平衡且模态间可以任意切换
  • 此项技术极为困难,在开源领域存在大片空白,同时需要极大的计算成本

Gemini在 text 上的能力大致与 GPT-4 追平,在image 上的能力一定程度超过 GPT-4V

  • Text 能力与 GPT-4 追平,体现在各项基础榜单上与 GPT-4 类似的数字
  • Image 能力超过 GPT-4V,体现在MMMU/MathVista 等任务上更高的数字
  • 但需要注意的是 Geminireport 上比较的GPT-4V 是 API版本的模型,这个模型不一定是原生 GPT-4V

Gemini 拥有 GPT-4V 所不具备的原生 video 能力

  • 从社交媒体的 demo上看,此项能力极为惊艳
  • 实际观感应该需要等大规模部署之后才能知道

榜单成绩

MMLU存在打榜争议

  • 这主要是因为 Gemini 报的数字是经过32次 decoding 之后 majority voting 的结果此项结果看起来就像是为了把MMLU分数打上90专门上的
  • 但是 GPT-3.5/4也存在打榜的行为,这两个模型在GSM8k/MATH 上都有 overfinetuning/performance decoration 的嫌疑

MMMU/MathVista 等视觉榜单是真正的主战场

  • 在MMMU 上,Gemini report 的是 dev set的成绩,而在MMMU 官方榜单的成绩是test set,所以此处还需要进一步验证

未来格局预测

Gemini的Alignment 会如何做

  • 基础的 Alignment 需要直接在 Bard 上部署,同时达到 GPT-3.5 以上的用户观感。在现阶段,Bard的无论从能力还是从人机交互,都与 GPT4.5 存在一定差距
  • 在Google 生态系统的 alignment,包括与Search/ Youtube/Maps / Android / Pixel的结合非常值得期待。此方向属于Google护城河,OpenAl短时间应该难以撼动
  • 多模态的 Alignment 会存在怎样的挑战; 之前 GPT-4V 的 alignment 部分存在 hack 验证码的例子,而现在Gemini有了视频能力,这方面的alignment 应该更为困难

Gemini与GPT两大模型家族会相互追赶超越

  • 可能的格局类似于两大模型家族每年update 模型,你超过我我超过你,类似于Intel/AMD 芯片
  • 二线到三线模型,例如 Claude/LLaMA可能会逐渐拉开差距

开源与闭源之间的鸿沟在Gemini发布之后拉大,且gap逐渐增大

  • GPT 3.5相当的能力在很多开源模型身上都达到了,比如 DeepSeek/ Qwen /Yi
  • 但是 GPT-4 和GPT 3.5 存在代际差别,Gemini video 与 GPT-4V 又存在代际差别
  • 此差别拉开的速度,随着计算资源和人才的集中,将会越来越大

在这里插入图片描述
图片版权归属 量子位编辑 衡宇 所有


Gemini中文对话……
在这里插入图片描述

欢迎评论区,或与博主私聊讨论 Gemini 技术内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猛码Memmat

欢迎支持,随缘打赏 ~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值