OpenAI 发布会:GPT-4o 有史以来最好的模型

OpenAI 发布会:GPT-4o 有史以来最好的模型 /

中国时间凌晨 1 点,OpenAI 开了个会,带来了一堆新的东西:

ChatGPT 新 UI 新的 UI 设计

GPT-4o 文字,语音和视频,三个史诗级更新,足以颠覆很多行业

GPT-4o API 2 倍快,半价,5 倍访问限制(对比与 4-turbo)

桌面应用 在 Mac 上提供了 ChatGPT 桌面应用。通过简单的键盘快捷键,可以立即向 ChatGPT 提问。还可以直接在应用程序中拍摄和讨论截图。

在发布会上,OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。它可以实时对音频、视觉和文本进行推理。

 GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。在一次谈话中。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

更重要的是从此以后,无论你是付费用户,还是免费用户,都能通过它体验 GPT-4 了。

接下来我们来看看发布会上对其能力的演示:

语音能力:语音能力中我认为最厉害的有几点:实时语音对话,在对话中你可以随时打断他,可以“听懂”用户的不同语气、语调,还能根据自己的回答生成不同语气的回复。

说真的,整个过程很自然很流畅,让我感觉就像是两个人面对面坐着交流。相比反应迟钝、没法打断还缺少情商的 Siri 等语音助手,ChatGPT 完胜!这才是 AI 语音助手!!

视频能力:GPT-4o 的到来,可以让我们和 AI 打视频电话,让它来解答各种问题,比如在线解数学题,相应极其自然。甚至还可以和你一起逗狗。

发布会上研发负责人 Barret 手写了一个方程,并打开摄像头拍给 ChatGPT,让它扮演「导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。

接到任务的 ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」

桌面应用:

在发布会上演示了看代码,并进行简短描述。比如准确对应了函数名及其功能,并识别出了其中取平均值、最高值等操作的意图。

GPT-4o 强在哪呢? /

改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。此外,在传统的 5-shot no-CoT MMLU 上,GPT-4o 创下了 87.2%的新高分。

音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。

视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

最最最重要的是,GPT-4o 不仅是目前全世界最好的模型,甚至可以在 ChatGPT 中免费用!!!

关注我,后续会给大家更多带来GPT的使用和最新资讯。

 

PS:因公众号平台更改了推送规则,如果不想错过内容,记得读完点一下“在看”,加个“星标”,这样每次新文章推送才会第一时间出现在你的订阅列表里。

“在看”支持支持,谢谢啦

文章链接

  • 32
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值