本文版权归属原作者所有。
本人近期繁忙,且部分内容需要保密。可能将暂不更新,特此为关注本账号的粉丝声明,与大家共同进步。
Executive editors of LLaMafia
llamafia.agi@gmail.com
https://github.com/LLaMafia
基本面
Gemini 是一个原生多模态的预训练 Base model checkpoint
-
原生多模态
文本,代码,图片,视频,语音,全部 tokenized 成 token 序列,交给一个基础模型做所有事情
已有的开源多模态模型一些是把图像部分和语言部分拼接在一起,Gemini 并不是这种
-
Base model check point
这个模型似乎并没有经过很强的 SFT / RLHF,在 report 中也并没有大篇幅描术RLHF的作用(vs.LLaMA2的report重点是 RLHF) -
但是在 Bard 上上线的 Gemini Pro 应该是经过了一定程度的 alignment
原生多模态,特别是 vision /video 的部分,是最大的技术重点,跟已发布的模型,包括 GPT-4,形成代际差距
- Gemini 开发中最难的点,应该是如何把video /image 与 text 合在一起放入一个基础模型训练,在每个模态都足够好/平衡且模态间可以任意切换
- 此项技术极为困难,在开源领域存在大片空白,同时需要极大的计算成本
Gemini在 text 上的能力大致与 GPT-4 追平,在image 上的能力一定程度超过 GPT-4V
- Text 能力与 GPT-4 追平,体现在各项基础榜单上与 GPT-4 类似的数字
- Image 能力超过 GPT-4V,体现在MMMU/MathVista 等任务上更高的数字
- 但需要注意的是 Geminireport 上比较的GPT-4V 是 API版本的模型,这个模型不一定是原生 GPT-4V
Gemini 拥有 GPT-4V 所不具备的原生 video 能力
- 从社交媒体的 demo上看,此项能力极为惊艳
- 实际观感应该需要等大规模部署之后才能知道
榜单成绩
MMLU存在打榜争议
- 这主要是因为 Gemini 报的数字是经过32次 decoding 之后 majority voting 的结果此项结果看起来就像是为了把MMLU分数打上90专门上的
- 但是 GPT-3.5/4也存在打榜的行为,这两个模型在GSM8k/MATH 上都有 overfinetuning/performance decoration 的嫌疑
MMMU/MathVista 等视觉榜单是真正的主战场
- 在MMMU 上,Gemini report 的是 dev set的成绩,而在MMMU 官方榜单的成绩是test set,所以此处还需要进一步验证
未来格局预测
Gemini的Alignment 会如何做
- 基础的 Alignment 需要直接在 Bard 上部署,同时达到 GPT-3.5 以上的用户观感。在现阶段,Bard的无论从能力还是从人机交互,都与 GPT4.5 存在一定差距
- 在Google 生态系统的 alignment,包括与Search/ Youtube/Maps / Android / Pixel的结合非常值得期待。此方向属于Google护城河,OpenAl短时间应该难以撼动
- 多模态的 Alignment 会存在怎样的挑战; 之前 GPT-4V 的 alignment 部分存在 hack 验证码的例子,而现在Gemini有了视频能力,这方面的alignment 应该更为困难
Gemini与GPT两大模型家族会相互追赶超越
- 可能的格局类似于两大模型家族每年update 模型,你超过我我超过你,类似于Intel/AMD 芯片
- 二线到三线模型,例如 Claude/LLaMA可能会逐渐拉开差距
开源与闭源之间的鸿沟在Gemini发布之后拉大,且gap逐渐增大
- GPT 3.5相当的能力在很多开源模型身上都达到了,比如 DeepSeek/ Qwen /Yi
- 但是 GPT-4 和GPT 3.5 存在代际差别,Gemini video 与 GPT-4V 又存在代际差别
- 此差别拉开的速度,随着计算资源和人才的集中,将会越来越大
图片版权归属 量子位编辑 衡宇 所有
Gemini中文对话……
欢迎评论区,或与博主私聊讨论 Gemini 技术内容