亲爱的数据:谭婧
(一)观点争锋
大模型的故事里,或许会有句话:
技术路线错误意味着死亡,
在错误的道路上,
跑越快,死越快。
如果你不信,我们一起算笔账,
头部大模型公司,每月算力支出是多少?
如果没有数据中心的话,
每月千万人民币级别算力支出。
不能说得再细了。
竞争到了这个阶段,犯大错意味着什么?
选择技术路线,就是选择生或死。
这些性命攸关的系统性选择,不止做一次,
选不选,什么时候选,选哪种。
反正OpenAI(OAI)已给出了自己的答案。
开始的开始,是由大语言模型拉开大幕,GPT-3.5属于超大规模语言模型。
而随后的GPT-4时刻,
OAI在官网技术博客上透露:
“GPT-4的一个重大提升是开始涉及多模态”。
并且,他们释放了图文部分的“下集预告”。
时过半年,GPT-4Vision它来了,
此前预告,顺手实现。
GPT-4的情况基本可以确定,
而GPT-4Vision没有放出模型结构和论文,
不能武断,但至少可以保守地说做了图和文。
看看名字,都带着Vision。
回顾一笔,多模态大模型在国内从来都不是“稀有物种”。
早在GPT-3.5发布之前,国内早期大模型探索者也是有人选纯语言,有人选多模态,相当于两条技术路线都占了。
选择纯语言技术路线的是华为诺亚方舟实验室的盘古,选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队,紫东太初团队。
只是,早期效果都不好,谁也别笑话谁。
但可以说,中国团队征服多模态的雄心壮志自始有之,无奈效果一般。
回到当下,虽然全球范围语言大模型占多数,
开源社区更是繁茂,
但多模态仍不是“稀有物种”。
例如,国外大团队的作品,GPT-4、Gemini 1.5等;
国外小团队的作品,Fuyu系列,LLaVA系列。
(《2023年终盘点:图文大模型编年简史》-可点击阅读)
Claude 3更是明确说明和早期版本不同,
是多模态,能够理解文本和照片输入。
就好像某位诺贝尔文