GPT4展望：多模态，CHATGPT下一站

Carey_melon

已于 2023-03-01 22:19:06 修改

阅读量2.6k

点赞数

文章标签：人工智能

于 2023-03-01 22:18:02 首次发布

本文链接：https://blog.csdn.net/m0_51218434/article/details/129291117

版权

GPT4展望：多模态，CHATGPT下一站

（转发）

核心观点

GPT4有望于2023年发布。

根据《财富》杂志报道，OpenAI还有更多创新蓄势待发，OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型，预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭，尘嚣甚上，且公开信息较为有限，我们在此总结各路信息、展望未来，供各位投资者参考：

相较前代，GPT4可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。

在2023年1月18日的一场公开采访中，当OpenAI的CEO Sam Altman被问及一张在推特上被疯转的图表时（该图表称GPT-3拥有1750亿参数，而GPT-4可能拥有100万亿参数），Altman称其 “完全是胡说”。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走，而可能向其他方向寻求提升。

GPT4有可能是一个多模态模型，可用于图像等领域。

根据The Seattle Times新闻报道，GPT4可能是一个很像ChatGPT的系统，只生成文本；或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况，但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外，根据财富杂志报道，OpenAI也确实在开发一款通过文字能生成视频的AI模型。

若GPT4转向多模态，未来输入输出可能出现图像、视频等形态，有望打开下游千行百业应用空间。

NLP只是大模型的应用领域之一，未来大模型的输入输出可以不仅限于文字，虽然当前影响力最强的ChatGPT是NLP模型，还可以包括图像、视频等多种形式，成为多模态模型，例如OpenAI的绘画AI模型DALL-E2，在AIGC界引起过巨大反响的Stable Diffusion等等。

传统的CNN演绎下视觉应用解决问题都是单点模式，CHATGPT多模态有望带来通用模式。

传统CNN模式下，视觉AI公司倾向于采用单点方式，在各个碎片场景中做客制化落地，定制化程度相对较高；若转向大模型模式，GPT4的多模态能力有望带来通用化的模式，显著提升AI模型生产效率。例如，商汤科技的SenseCore AI大装置中，模型层的模型工厂可以大幅降低人工智能生产要素的成本，提高人工智能的生产效率，实现人工智能以自动化、自适应的方式进行生产和落地，模型工厂已开发超过 49000 个商用人工智能模型。我们认为，若GPT4转向多模态，图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公，打开有望未来AI在下游千行百业的应用空间，进一步打开市场想象力。