LLaMafia的编辑对于Google Gemini的快速评论

猛码Memmat

已于 2023-12-20 10:58:32 修改

阅读量1.1k

点赞数 16

分类专栏： prompt 文章标签：人工智能 LLaMa Gemini Google Deepmind

于 2023-12-08 13:40:15 首次发布

本文链接：https://blog.csdn.net/JishuFengyang/article/details/134876501

版权

7 篇文章 0 订阅

订阅专栏

本文探讨了Gemini，一个原生多模态的预训练模型，其在文本、代码、图片和视频等模态上的能力超越了GPT-4，特别是在视频领域。文章还分析了模型的未来发展方向，包括与GPT家族的竞争以及开源与闭源模型之间的差距。

摘要由CSDN通过智能技术生成

本文版权归属原作者所有。

本人近期繁忙，且部分内容需要保密。可能将暂不更新，特此为关注本账号的粉丝声明，与大家共同进步。

Executive editors of LLaMafia

llamafia.agi@gmail.com
https://github.com/LLaMafia

基本面

Gemini 是一个原生多模态的预训练 Base model checkpoint

原生多模态

文本，代码，图片，视频，语音，全部 tokenized 成 token 序列，交给一个基础模型做所有事情

已有的开源多模态模型一些是把图像部分和语言部分拼接在一起，Gemini 并不是这种
Base model check point
这个模型似乎并没有经过很强的 SFT / RLHF，在 report 中也并没有大篇幅描术RLHF的作用(vs.LLaMA2的report重点是 RLHF)
但是在 Bard 上上线的 Gemini Pro 应该是经过了一定程度的 alignment

原生多模态，特别是 vision /video 的部分，是最大的技术重点，跟已发布的模型，包括 GPT-4，形成代际差距

Gemini在 text 上的能力大致与 GPT-4 追平，在image 上的能力一定程度超过 GPT-4V

Gemini 拥有 GPT-4V 所不具备的原生 video 能力

MMLU存在打榜争议

这主要是因为 Gemini 报的数字是经过32次 decoding 之后 majority voting 的结果此项结果看起来就像是为了把MMLU分数打上90专门上的
但是 GPT-3.5/4也存在打榜的行为，这两个模型在GSM8k/MATH 上都有 overfinetuning/performance decoration 的嫌疑

MMMU/MathVista 等视觉榜单是真正的主战场

Gemini的Alignment 会如何做

基础的 Alignment 需要直接在 Bard 上部署，同时达到 GPT-3.5 以上的用户观感。在现阶段，Bard的无论从能力还是从人机交互，都与 GPT4.5 存在一定差距
在Google 生态系统的 alignment，包括与Search/ Youtube/Maps / Android / Pixel的结合非常值得期待。此方向属于Google护城河，OpenAl短时间应该难以撼动
多模态的 Alignment 会存在怎样的挑战; 之前 GPT-4V 的 alignment 部分存在 hack 验证码的例子，而现在Gemini有了视频能力，这方面的alignment 应该更为困难

Gemini与GPT两大模型家族会相互追赶超越