AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

c9a521930438f7cb485be7543a18483a.png

亲爱的数据:谭婧

(一)观点争锋

大模型的故事里,或许会有句话:

技术路线错误意味着死亡,

在错误的道路上,

跑越快,死越快

如果你不信,我们一起算笔账,

头部大模型公司,每月算力支出是多少?

如果没有数据中心的话,

每月千万人民币级别算力支出

不能说得再细了。

竞争到了这个阶段,犯大错意味着什么?

选择技术路线,就是选择生或死。

这些性命攸关的系统性选择,不止做一次,

选不选,什么时候选,选哪种。

反正OpenAI(OAI)已给出了自己的答案。

开始的开始,是由大语言模型拉开大幕,GPT-3.5属于超大规模语言模型。

而随后的GPT-4时刻,

OAI在官网技术博客上透露:

“GPT-4的一个重大提升是开始涉及多模态”。

并且,他们释放了图文部分的“下集预告”。

时过半年,GPT-4Vision它来了,

此前预告,顺手实现。

GPT-4的情况基本可以确定,

而GPT-4Vision没有放出模型结构和论文,

不能武断,但至少可以保守地说做了图和文。

看看名字,都带着Vision。

回顾一笔,多模态大模型在国内从来都不是“稀有物种”。

早在GPT-3.5发布之前,国内早期大模型探索者也是有人选纯语言,有人选多模态,相当于两条技术路线都占了。

选择纯语言技术路线的是华为诺亚方舟实验室的盘古,选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队,紫东太初团队

只是,早期效果都不好,谁也别笑话谁。

但可以说,中国团队征服多模态的雄心壮志自始有之,无奈效果一般。

回到当下,虽然全球范围语言大模型占多数,

开源社区更是繁茂,

但多模态仍不是“稀有物种”。

例如,国外大团队的作品,GPT-4、Gemini 1.5等;

国外小团队的作品,Fuyu系列,LLaVA系列。

(《2023年终盘点:图文大模型编年简史》-可点击阅读

Claude 3更是明确说明和早期版本不同,

是多模态,能够理解文本和照片输入。

就好像某位诺贝尔文

  • 10
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值