GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了

从 5 月初爆出将在 9 日发布搜索引擎;到 5 月 11 日,官宣将在当地时间 5 月 13 日 10 时发布 ChatGPT 与 GPT-4 更新;再到 Sam Altman 亲自下场辟谣「不是 GPT-5,也不是搜索引擎」,而是「像魔法一样的新东西」;随后,网友开始通过各种蛛丝马迹深挖其发布内容,最终 GPT-4.5 和 ChatGPT 的通话功能成为热门候选。

最初,有网友调侃 Sam Altman 此举是准备和 Google I/O 大会抢风头,但对比 Gemini 1.5 和 Sora 的对决,如果没点「硬货」,Altman 恐怕也不愿铤而走险在谷歌年度大会的前一天发布更新。

事实也的确如此,OpenAI 这一次看似临时攒局的线上直播发布会,实则有备而来。

本次 OpenAI spring updates 未见 Sam Altman 的身影,而是由公司的 CTO Muri Murati 带来了一系列更新,包括了:

  • GPT-4o

  • ChatGPT 的语音交互功能

  • ChatGPT 的视觉能力

点击链接即可查看完整直播回放:
【中字】OpenAI Spring Updates 春季更新大会|官宣旗舰模型 GPT-4o!完全免费!实时交流!

GPT-4o:语音 buff 加持,所有用户免费使用

自 2023 年 3 月发布以来,GPT-4 霸榜已久,只要有新模型发布,便会被搬出山来进行一番对比,这也足以证明其性能之强大。此外,GPT-4 也是 OpenAI 现阶段极具商业价值的「摇钱树」,屡屡被马斯克炮轰「不 Open」。

更重要的是,面对 Meta 开源的 Llama、谷歌开源的 Gemma、马斯克开源的 Grok,基于 GPT-3.5 的免费版 ChatGPT 压力倍增。而在 GPT-5 迟迟没有露面之际,不少网友都猜测,OpenAI 会释放出新版本的 GPT-4 来接替 GPT-3.5。

不出所望,在今天的直播中,OpenAI 发布了新版本 GPT-4o,所有用户都可以免费使用,付费用户将拥有 5 倍于免费用户的容量限制。其中的 「o」表示「omni」,寓意着向更自然的人机交互迈进。

在这里插入图片描述

OpenAI CTO Muri Murati 介绍道,GPT-4o 提供了 GPT-4 级别的 AI 能力,能够基于语音、文字和视觉进行推理。其接受文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。

点击链接查看 GPT-4o 演示视频:
https://www.bilibili.com/video/BV1PH4y137ch

在 GPT-4o 之前,使用语音模式与 ChatGPT 对话的平均延迟时间为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为优化交互体验,OpenAI 在文本、视觉和音频方面训练了一个端到端新模型,这意味着所有输入和输出都由同一个神经网络处理,从而减少了信息丢失。

在这里插入图片描述

性能方面,GPT-4o 能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间相近。此外,GPT-4o 在英语和代码文本方面的性能与 GPT-4 Turbo 相当,在非英语语言文本方面也有显著提高,改进了 50 种不同语言的质量和识别速度。同时,在 API 方面速度是原来的 2 倍,但价格却便宜 50%。

在这里插入图片描述

此外,GPT-4o 的推理能力也有大幅提升,官方数据表示,GPT-4o 在 0-shot COT MMLU(常识题)中创造了 88.7% 的新高分。

在这里插入图片描述

OpenAI 的 William Fedus 晒出了 GPT-4o 在 LMSys 榜单上的排名情况,团队给 GPT-4o 的命名也很有意思:im-also-a-good-gpt2-chatbot。

在这里插入图片描述

他还介绍道,在更难的提示集上、尤其是在编码能力上,GPT-4o 的水平比 OpenAI 此前最先进的大模型高出 +100 ELO。

在这里插入图片描述

William Fedus 直言,GPT-4o 不仅是世界上最好的模型,而且在 ChatGPT 中免费提供,这在前沿模型中开辟了先例。

在某种程度上,GPT-4o 可以看作是 OpenAI 对于其「开源」产品的更新,而对于外界屡次诟病的「OpenAI 不 Open」,Sam Altman 也在其 blog 中表示:「OpenAI 的使命之一就是免费(或以优惠价格)向人们提供功能强大的人工智能工具。我感到非常自豪的是,我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。」

对于 GPT-4o 的性能,Sam Altman 也毫不吝啬赞美之词:「新的语音(和视频)模式是我用过的最好的计算界面。它给人的感觉就像电影中的人工智能;而它的真实性仍然让我感到有些惊讶,其中的一个重要变化便是达到人类水平的响应时间和表现力。」

在这里插入图片描述

随后,Altman 还在其账号发布了「her」,也暗示了自己新版模型将开启「Her 时代」。

值得注意的是,GPT-4o API 中并没有为所有客户提供语音功能。

OpenAI 表示,GPT-4o 通过过滤训练数据和后期训练完善模型行为 (refining the model’s behavior through post-training) 等技术,在设计中就考虑到了各种模式的安全性,团队还创建了新的安全系统,从而为语音输出提供保护。

尽管如此,OpenAI 还是以滥用风险为由表示,计划在未来几周内首先向 「一小部分可信赖的合作伙伴」推出对 GPT-4o 的新音频与视频功能。

在这里插入图片描述

而 GPT-4o 的文本和图像功能今天开始便会在 ChatGPT 中推出。未来几周,OpenAI 将在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式 alpha。开发人员现在也可以在 API 中以文本和视觉模式访问 GPT-4o。

Her 时代来了:ChatGPT 有感情的语音交互

早在今年 2 月,前 OpenAI 开发者关系负责人就提及,ChatGPT 的终极形态不仅仅是聊天。

在这里插入图片描述

5 月 11 日,Sam Altman 也在一档播客节目中称,OpenAI 将继续改进并提升 ChatGPT 的语音功能质量,并表示语音交互是通向未来交互方式的一个重要途径。

在今天的发布会上,OpenAI 也展示了其提升 ChatGPT 语音质量的阶段性成果——基于 GPT-4o 实现了语音交互,且响应速度大幅提升。

具体而言,ChatGPT 的升级更新主要体现在三个方面——实时交互、多模态输入输出、感知情绪。

在实时交互方面,在现场演示中,ChatGPT 几乎可以即时回应提问者的所有问题,提问者如果出言打断 ChatGPT 的回答,其也能够停下来。Muri Murati 还应现场观众的要求,展示了 GPT-4o 的实时翻译功能。

在这里插入图片描述

多模态输入/输出则无需赘述,基于 GPT-4o 的 ChatGPT 能够识别文本、语音与视觉信息,并根据需求以任一形式进行回答。

在感知情绪与情绪反馈方面,升级后的 ChatGPT 能够根据人物自拍照,快速分析人物的面部情绪。同时还可以根据对话者的要求调整说话时的语气,从夸张戏剧到冰冷机械,甚至还可以唱歌,这展示了其出色的可塑性。

对此,Muri Murati 表示:「我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 GPT 的协作,这一点非常重要。」

在这里插入图片描述

此外,在推理分析方面,GPT-4o 还改进了 ChatGPT 的视觉功能。给它一张拍摄的照片,ChatGPT 可以快速浏览图片的内容并回答相关问题,比如拍照解决数学问题。

在这里插入图片描述

还可以根据分享的代码图片描述代码的具体内容,分析假若改变代码其中的一个变量,将会产生什么具体影响。

在这里插入图片描述

给 GPT-4o 一个图表,它还能够对图表的内容进行具体分析。

在这里插入图片描述

OpenAI 的这一创新尝试将 ChatGPT 的应用横跨语音、文本和视觉,这预示着未来人机交互可能会更加自然和流畅。

对此,OpenAI 表示,具有视觉和音频功能的 AI 语音助手具有像智能手机一样的变革性潜力,理论上它可以做到一系列现在的 AI 助手无法做到的事,比如充当论文、数学指导老师,或是翻译交通标识、帮助解决汽车故障等。

写在最后

从 GPT 横空出世以来,OpenAI 一度被视为大模型时代的「风向标」。细数硅谷的传统巨头:

  • 微软与 OpenAI 的关系微妙,既是金主投资人,也在自家业务中部署了 GPT 模型,同时还为 OpenAI 提供云服务;
  • 苹果今年开始在生成式 AI 上加大投入,并发布了自研大模型,但起步稍晚,能否撼动 OpenAI 地位仍未可知,同时还有爆料称苹果已经要和 OpenAI、谷歌在大模型上进行合作;
  • 亚马逊作为全球最大的云基础设施提供商,虽然也推出了自家的大模型 Amazon Titan,但这只是其云托管服务 Bedrock 的一部分,尽管亚马逊还投资了 Anthropic,但目前看来还是难与 OpenAI 抗衡。

一番对比,谷歌似乎是最有希望和 OpenAI 掰掰手腕的企业,不仅有深厚的技术积累(Transformer 架构便是出自谷歌),还有丰富的生态供大模型一展拳脚。

然而,关注谷歌的读者或许能够发现,这位老牌巨头在大模型时代有点「汪峰」体质了(狗头保命)——从 Bard、PaLM 2 在性能上不及 GPT-4,到颠覆巨作 Gemini 1.5 发布被 Sora 抢热度,再到 3 月就定档的 Google I/O 大会在最佳造势期被 OpenAI 的一个「临时起意」的直播抢风头……

就在今天(5 月 14 日)凌晨,OpenAI 祭出了「世界上最好的模型」,不知道劈柴哥看了今天的发布会,会不会连夜「改剧本」?

答案将在明天凌晨揭晓,期待谷歌能打一场「翻身仗」,HyperAI超神经也将持续带来一手报道!

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 事件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值