OpenAI 新发布的 GPT-4o，有血有肉的Ai来了，可实时语音视频交互

最新推荐文章于 2024-10-24 21:40:12 发布

奋斗的java小伙

最新推荐文章于 2024-10-24 21:40:12 发布

阅读量742

点赞数 27

文章标签：程序人生

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_60815011/article/details/138880023

版权

今天，OpenAI又又又开发布会了。

在大众心里，现在也基本上都知道，奥特曼是一个贼能PR的人。

每一次的PR的时间点，都拿捏的极其到位，精准的狙击其他厂商。比如说上一次Sora，其实你会发现从头到尾就是一个PR的举动，2月16号发的，特么的快3个月了，什么影子都没有。

而这一次，OpenAI把发布会从9号改到了今天，也不知道哪个倒霉蛋造到狙击了，反正我只知道，明天Google要开开发者大会。。

就差怼脸了。。。

不过，今天OpenAI的东西，直接杀疯了。完全不给友商活路。

震撼的我头皮发麻。

最核心的就是它的新模型：GPT-4o，和基于GPT-4o打造的全新ChatGPT。

1. 新模型GPT-4o

OpenAI正式发布了新的模型GPT-4o。

image-20240515020150817

GPT-4o，这个o就是"Omni"，Omni是拉丁语词根，意为 "全体"、"所有" 或 "全面的"。

在英语中，"omni" 常被用作前缀，表示 "所有的" 或 "全体的"。例如，"omniscient" 意味着 "无所不知的"，"omnipotent" 意味着 "全能的"，"omnipresent" 意味着 "无所不在的"。

所以可想而知，OpenAI这次对GPT-4o的期待有多高。

omnimodel指的就是文字、语音、图片、视频统一的模型，这是跟以往的GPT-4V最大的区别。

这是正儿八经的原生多模态。

更重要的是可以实时推理音频、视觉和文本，注意这里是实时，实时，实时，推理的不是文本，是音频！视觉！

杀疯了。

而之前一直在大模型竞技场上大杀特杀的im-also-a-good-gpt2-chatbot，就是这个玩意。之前所有人都在猜测这个神秘的GPT2就是GPT4.5，这次看来是猜对了。

image-20240515020203033

这个GPT-4o的整体能力，在统一模态的基础上。

文本、代码能力还基本能跟GPT-4 Turbo打平。

文本能力：

image-20240515020316582

音频能力：

image-20240515020256434

各个语言的考试能力：

image-20240515020243826

最核心的是最后一个：

image-20240515020327655

在一些多模态的基准测试集上全面碾压之前模型，数据集主要围绕包括对各种科学问题或数学问题进行图表理解和视觉回答，可以看到GPT-4o 在视觉感知基准上实现了碾压。

能力强到爆炸。

不仅在传统的文本能力上GPT-4 Turbo的性能相当，还在 API 方面更快速，价格还更便宜 50%。总结来说，与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格减半，限制速率提高了 5 倍。

2. 新ChatGPT

新的ChatGPT基于GPT-4o，基本原地起飞，我甚至都不想称他为ChatGPT，而是想称它一个国人更为熟悉的代号：

Moss。

image-20240515020347707

新版的ChatGPT得益于GPT-4o新模型，在语音对话中，几乎没有延迟，而且可以随时插嘴，模型实时响应。

甚至，模型可以听懂你的情绪、甚至人的喘息声和呼吸。

而且模型自己的自己的情绪，几乎无敌，跟真人一模一样。

甚至，它还能模拟机器人和唱歌的声音。。。

看的时候，听到它唱歌的那一刻，我的鸡皮疙瘩真的起来了。

Jim Fan在发布会开始前，发了一个文，我觉得阐述的非常正确。

过往的人与AI进行语音对话，其实跟人与人之间的对话还差太多太多了。

人与人之间的实时对话，其实是充斥了无数的即时反映、打断、预测等等的，还有各种各样的语气助词的，比如嗯嗯啊啊啥的。

而人与AI语音对话时不是这样。

image-20240515020357551

人跟AI进行语音对话，基本上都经历3步：

\1. 你说的话，AI进行语音识别，即音频转文本；

\2. 大模型拿到这段文本，进行回复，产出文本；

\3. 讲大模型的产出文本进行语音合成，变成语音，这就是TTS。

这样的方式，有绝对逃不开的延时，现在的业界可能会压得很低，但是2秒的延时肯定是会有的，而且只有一来一回的回合制。即使你的语音音色和情绪再真实，用户也一定能感受到，对面不是人。只是机器。

这个沉浸感是有巨大的滑坡的。

而且最核心的是，这种转三道的方式，先把语音变成文本后，是有损的。文本上并不会保留你的语音情绪，我的生气、开心、愤怒、忧伤，全都没了。

人与人的交谈，从来不是这样的。

而这一次，OpenAI做到了。直接语音输入语音输出，不再需要语音到文本的转换。

而且，不止语音，甚至，它还有了视觉。

是的，视觉，不是传一张图上去，而是，直接打开摄像头，实时看发生了什么。

图片

现场直接打开了摄像头，OpenAI的人直接开始现场写数题，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。

在做了三道题之后，OpenAI直接给它写了一个纸条，上面写着“我爱ChatGPT”。

image-20240515020412561

而ChatGPT在看到这个小纸条后，跟小女生一样害羞的尖叫了起来，那种情绪的真实，那种真情实感，你跟我说这是AI？

写在最后

以上就是这次OpenAI春季发布会的全部内容了。

去年11月的OpenAI开发者大会，我在当时的总结文章中写下了一句话：

"我消灭你，与你无关"

上一次，OpenAI的随手更新，让无数的初创公司直接消亡在原地。

那是一次关于产品的更新，并没有秀太多的OpenAI的肌肉。

而2月，Sora的横空出世，秀肌肉的目的是达到了，但是这种To VC的宣发，也给OpenAI和奥特曼带来了很多的诟病。

在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的"magic"。

image-20240515022103675

那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。

新版的ChatGPT，在我看来，这是"Moss"的诞生。

我甚至一边看一边想：我们人类究竟该何去何从。

太强了，真的让我忍不住的兴奋。

不过在看完了之后，我更期待的是大众的GPT-4o的使用体验

目前GPT-4o处于灰度测试阶段

什么是灰度测试呢

灰度测试，就是在某项l产品或应用正式发布前，选择特定人群试用，逐步扩大其试用者数量，以便及时发现和纠正其中的问题，由“灰”到“黑”。（来源：灰度测试_百度百科 (baidu.com)）

仅对GPT4.0plus用户进行开放，要想抢先体验GPT-4o推荐阅读这篇教程 [GPT-4o如何抢先体验](五月份最新GPT-4o使用升级教程（GPT4o视频和语音实时交互处理） – 智技AI (zct.ink))

本文由 mdnice 多平台发布

奋斗的java小伙

关注

27
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。