今晨,一场不足半小时的发布活动,再次极大地颠覆了人工智能产业和我们未来的日常生活,并将无数AI初创企业推向慌乱之境。
这并非夸大其辞,因为这是由OpenAI主办的发布会。
刚刚过去的,OpenAI宣布推出了GPT-4o型号,其中的「o」象征着「omni」(意即全面、全能),显示出这款模型不仅具备文本处理能力,还能处理图像、视频和语音,它甚至可以视作GPT-5的前身。
更为关键的是,这一GPT-4级别的模型将向所有用户公开,并预计在接下来几周优先升级至ChatGPT Plus用户。
我们先给大家一次性总结这场发布会的亮点,更多功能解析请接着往下看。
发布会要点
1.
新的 GPT-4o 模型:打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换
2.
GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。
3.
GPT-4o 向所有用户免费开放
4.
GPT-4o API,比 GPT 4-Turbo 快 2 倍,价格便宜 50%
5.
惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表
6.
ChatGPT 新 UI,更简洁
7.
一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出
这些功能早在预热阶段就被 Altman 形容为「感觉像魔法」。既然全世界 AI 模型都在「赶超 GPT-4」,那 OpenAI 也要从武器库掏出点真家伙。
当然,还轮不到 GPT-5 登场。
视频来自@dotey
免费可用的 GPT-4o 来了,但这不是它最大的亮点
虽然免费提供的GPT-4o本身就非常引人注目,但这并不是它的最大卖点
在发布会前一天,我们注意到OpenAI已悄然将GPT-4的描述从「最先进的AI模型」更改为仅仅「先进」。这正好为GPT-4o的到来作了铺垫。
GPT-4o的强大之处在于,它能够处理任何组合的文本、音频和图像输入,并直接产出这几种媒介的输出。
这预示着人机交流将愈发贴近人与人之间的自然沟通方式。
GPT-4o能够在232毫秒的时间内回应音频输入,平均反应时间为320毫秒,非常接近于人类交谈时的反应时间。以往与ChatGPT进行语音交流时,平均延迟为2.8秒(GPT-3.5版)和5.4秒(GPT-4版)。
在英语文本和编程代码方面,它的性能与GPT-4 Turbo相媲美,在非英文文本处理方面有显著进步,同时API的响应更快,且价格降低了50%。
而与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。
你在对话时可以随时打断
可以根据场景生成多种音调,带有人类般的情绪和情感
直接通过和 AI 视频通话让它在线解答各种问题
从测试参数来看,GPT-4o 主要能力上基本和目前最强 OpenAI 的 GPT-4 Turbo 处于一个水平。
向左滑动查看更多内容

在之前,使用Siri或其他语音助手的体验都不算理想,主要是因为语音助手需要经历以下三个阶段:
1.语音识别或称为「ASR」:将音频转换为文本,类似于Whisper技术;
2.用LLM计算下一步的发言内容:把文本1转换为文本2;
3.语音合成或「TTS」:再将文本2转换为音频,想象一下ElevenLabs或VALL-E的技术。
然而我们日常的自然对话却通常包括这些过程:
a、一边听一边考虑接下来要说的内容;
b、在合适的时候插入像「是的」、「嗯」这样的应答;
c、预判对方讲话结束的时刻,并立即接话;
d、自然地决定是否打断对方,并且做到不引发不快;
e、在听和说的同时,思考下一步的对话内容;
f、在合适的时刻插入像「是的」、「嗯」这样的应答;
g、优雅地处理并打断对话。
之前的AI语言助手无法很好地处理这些问题,在对话的每个阶段都会出现延迟,因此体验不佳。并且在这个过程中会丢失许多信息,比如无法直接捕捉到语调变化、多个说话者的区分或背景噪音,并且无法表现出笑声、歌声或其他情感。
一旦音频能够直接转换为音频、图像、文字和视频,整个体验将是革命性的。
GPT-4o正是OpenAI为了实现跨文本、视频和音频的直接互转而训练出的全新模型,这一目标要求所有的输入和输出都由同一个神经网络处理。
而令人惊讶的是,即使是免费的ChatGPT用户也能够使用GPT-4o体验以下功能:
a、感受GPT-4级别的智能表现
b、直接从模型和网络获得响应
c、分析数据以及制作图表
d、分享你拍摄的照片并开展对话
e、上传文件以获取摘要、写作或分析的帮助
f、使用GPT技术和GPT应用商店
g、通过内存功能构建更为帮助的体验
当你观看GPT-4o的以下一些演示之后,可能会有更加复杂的情绪。
ChatGPT 版「贾维斯」,人人都有
ChatGPT不仅能听,还能说,同样还能看。这已经不是什么新鲜事了,但升级版的ChatGPT依然令人印象深刻。
睡前帮手
以一个具体的生活情景为例,如果要求ChatGPT讲述一个关于机器人和爱情的睡前故事,它能迅速不假思索地吐露一个情感丰富、情节动人的故事。
它甚至还能以唱歌的形式来叙述这个故事,几乎可以当做用户的睡眠伴侣。
答题能手
或者,在发布活动现场,当要求其演示如何为线性方程3X+1=4解题时,它能够耐心地一步一步指导并给出正确答案。
当然,以上还只是一些基础应用,现场的编程难题才是真正的挑战。不过,这些问题对它来说都不在话下,能够轻而易举地解决。
利用ChatGPT的「视觉功能」,它能够查看电脑屏幕上的所有内容,比如与代码库互动、查看代码生成的图表。这是否意味着我们将来的隐私也会被一览无遗?
同声传译
发布会现场的观众也向ChatGPT提出了一些棘手的问题。
无论是从英文翻译成意大利文,还是从意大利文翻译成英文,不管怎样挑战这个AI语音助手,它都能游刃有余地应对。未来,ChatGPT可能会比目前市面上的实时翻译设备更加可靠。
同声传译(官网案例)
感知情绪语言只是第一步,ChatGPT还能解读人脸表情。
在发布会现场,当面对摄像头拍摄的人面部时,ChatGPT一开始错误地将其识别成了桌子,让人误以为要出错了。但原来是因为开启的前置摄像头首先瞄准了桌子。
不过最终,它还是准确地描述了拍照面部的情感,并且正确识别了脸上的「灿烂笑容」。
两个 GPT-4o 互动并唱歌(官网案例)
有趣的是,在发布会快结束时,主持人也不忘提到了英伟达及其创始人老黄所提供的「大力支持」,这显示了对人情世故的理解。
对话语言界面的想法具有令人难以置信的预见性。
Altman在之前的采访中曾表示,他希望最终开发出类似于AI电影《她》中的AI助手。而今天OpenAI发布的语音助手,确实接近了现实版的「她」。
OpenAI首席运营官Brad Lightcap不久前预测,未来我们会像与真人交谈一样与AI聊天机器人对话,把它们视作团队中的一员。
现在看来,这不仅为当日发布会埋下了伏笔,同时也是对我们未来十年生活方式的生动预告。
苹果在AI语音助手领域「徘徊」了十三年都未能找到方向,而OpenAI仅用一夜之力建立了通道。在不远的将来,每个人都拥有类似钢铁侠「贾维斯」的个人助手或许不再是梦想。
《她》来临
尽管Sam Altman没有亲自出现在发布会上,但在会后他立刻发布了一篇博客,并在X上发布了一个词:her。
这显然是在暗示那部同名经典科幻电影《她》。这也是我在观看发布会演示时,脑海中首先出现的画面。
电影《她》中的萨曼莎,不仅仅是一个普通产品,她甚至比人类更懂人,也更像人类自己。在与她的交流中,人们可能会逐渐忘记她其实是一个AI。
这意味着人机交互模式可能会迎来继图像界面之后的真正革命性更新,如同Sam Altman在博客中所说:
全新的语音(和视频)模式是我体验过的最佳计算机界面。它给人一种电影中AI的感觉;我自己依然对它的真实性感到惊讶。达到人类水平的响应速度和表现力,原来是一个巨大的转变。
之前的ChatGPT向我们展示了自然用户界面初露端倪:简单胜过一切——复杂性是自然用户界面的敌人。每个互动都应该是显而易见的,无需任何指导手册。
但今日发布的GPT-4o则完全不同,几乎无延迟的响应、聪明、有趣且实用,我们与计算机的交互从未真正体验过这种的自然顺畅。
隐藏的巨大潜力在于,支持更多个性化功能和与不同终端设备的协同之后,我们将能够利用手机、电脑、智能眼镜等计算设备做到许多过去无法实现的事情。
AI硬件的积累不会停止,目前更让人期待的是,如果下个月苹果的WWDC宣布与OpenAI合作,那么iPhone的体验可能会有前所未有的提升。
英伟达高级科学家Jim Fan认为,号称史上最大更新的iOS 18,与OpenAI的合作可能包含以下几个方面:
舍弃Siri,OpenAI为iOS打造一个完全在设备上运行的小型GPT-4o版本,用户可选择付费升级云服务。
原生功能将摄像头或屏幕流输出到模型中。芯片级支持神经网络音视频编解码器。
将其与iOS系统级操作API和智能家居API集成。人们已经不再使用Siri快捷方式,但现在是时候重振旗鼓了。这可能会成为一款刚上线就拥有十亿用户的AI代理产品。对于智能手机来说,这就像特斯拉的全尺寸数据飞轮。
说到这里,不禁为明天即将举行发布会的谷歌感到凉凉。
最后实测,目前手机版和GPT Plus已经支持GPT-4o,相信马上就会免费开放给GPT 普通用户。