深夜重磅炸弹！OpenAI再压谷歌一头，最强模型GPT-4o免费发布，语言对话媲美人类反应

最新推荐文章于 2024-05-28 15:38:47 发布

中年猿人

最新推荐文章于 2024-05-28 15:38:47 发布

阅读量906

点赞数 26

文章标签：人工智能语音识别自然语言处理语言模型学习

本文链接：https://blog.csdn.net/2301_76161259/article/details/138871579

版权

GPT-4o 语音延迟大幅降低，能在 232 毫秒内回应音频输入，平均为 320 毫秒，这与对话中人类的响应时间相似。

5月14日，OpenAI春季发布会，依旧是奥特曼熟悉的味道：

不仅抢在自己最大竞争对手“Google I/O”大会前发布，并在会前数次吹风：“将会带来很有意思的东西。”

现场，OpenAI首席技术官MiraMurati，在轻松的氛围中宣布：Open AI推出桌面版ChatGPT，并推出名为GPT-4o的全新旗舰人工智能模型。

那么，GPT-4o有何特别之处？

而堪称AI圈里最懂PR的奥特曼，这一次，有没有继续吹牛？

电影《Her》，

从科幻走进现实

“GPT-4o 可以综合利用语音、文本和视觉信息进行推理。”

现场，OpenAI首席技术官MiraMurati指出，过去的GPT-4可以处理由图像和文本混合而成的信息，并能完成诸如从图像中提取文字或描述图像内容等任务。

不过，GPT-4o的强大之处，就是可以在GPT-4的基础上，新增语音处理能力。

并且，GPT-4o还可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

这也意味着，GPT-4o相比GPT-4，不仅能看文本，还能看图像，能言善道，反应迅速。

并且更加像人。

而这，是这次GPT-4o的核心变化。大家纷纷惊呼，OpenAI再次改变世界！

1、实时回应，反应迅速

现场，演示者提问结束后，GPT-4o 几乎可以做到即时回应，没有停顿。

答案生成后，GPT-4o 能够立马将文本转语音，进行朗读。

准确来说，这不像是和一个AI进行模块式问答，而更像是和一个“真人”对话。

事实上，GPT-4o有着更快的反应速度：它可以在232毫秒的时间内响应音频输入，平均为320毫秒，这与人类在谈话中的反应时间，基本一致。

此外，GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快，成本降低了50%，速度是GPT-4-turbo的两倍。

与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

2、全能立体，沟通无障碍

相比前辈们，GPT-4o变得更加强大了。

现场，它不仅可以通过画面实时解答数学方程，并能根据统计画图，进行现场指导。

并且，GPT-4o还能跨越国界，掌握多国语言。

现场，GPT-4o就根据实时提问，来了一段意大利语。

事实上，根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。

此外，GPT-4o同时在多语言、音频和视觉功能上设置了新的高水位线。

3、更加自然，更加真实，也更加“像人”

GPT-4o 还有着更加拟人的功能。

现场，GPT-4o还能调整说话时的语气，根据指令改变声音。

能够以自然的、听起来像人类的声音说话，甚至还可以唱出部分回应。

不管是夸张、戏剧，乃至低沉阴冷，甚至机械嗓音。

GPT-4o都展现出了其声音极强的张力和可塑性。

不仅如此，在与人对话中，它还能发出不止一种语气词。

以及最重要的，对话中，GPT-4o体现了很多“情绪化”的表达。能够查看图表图像并进行讨论，检测用户情绪。

现场，它能通过音频感知，去试着对观看提问者的面部表情，做出情绪分析。

这不由得令人联想道电影《Her》中，那位具有磁性嗓音、复杂多变的AI，正从科幻走向现实。

更加简单、直观的GPT-4o ，

要不要钱？

那么，强大的GPT-4o是如何感知情绪的？它是否会收费呢？

GPT-4o 之前，人们虽然可以使用语音模式与 ChatGPT 对话。然而，其平均延迟为2.8秒 (GPT-3.5) 和5.4秒 (GPT-4)。

一般而言，ChatGPT 采用的语音模式，是由三个独立模型组成：例如，其中一个简单的模型，是将音频转录为文本，GPT-3.5或 GPT-4接收文本并输出文本，再由型将该文本转换回音频。

然而，这也意味着GPT-4丢失了大量信息：它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

因此，此次的 GPT-4o，则达成了跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

这也使得，该模型使用起来将更加简单、直观。

GPT-4o 的出现，则标志着一个够使用文本、语音和视觉交互的数字助手，一个能够查看用户上传的屏幕截图、照片、文档或图表，并进行对话的贴心管家，正在加速而来。

此外，OpenAI 首席技术官 Mira Murati 表示，ChatGPT 现在还将具有记忆功能，这意味着它可以从之前与用户的对话中学习。

“这是我们第一次在易用性方面真正迈出一大步，”穆拉蒂在公司旧金山总部的现场演示中说道。“这种互动变得更加自然，也更加容易。”

值得注意的是，此前OpenAI 发布新版 ChatGPT 模型时，通常会将其置于付费墙之后。不过，这次 GPT-4o 将免费提供给所有用户，付费用户则可以享受五倍的调用额度。

Mira Murati表示，该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中GPT-4O将免费提供。

此外，OpenAI还将推出桌面版ChatGPT，并推出名为GPT-4o的全新旗舰人工智能模型。

GPT-4o只是开胃小菜

尽管此次GPT-4O亮点不少，然而，不管是展示时间置于谷歌大会前一天的微妙，还是推出桌面版ChatGPT免费使用，无一例外都凸显了OpenAI 隐隐的竞争压力和增长焦虑。

事实上，本次OpenAI 春季发布会之前的数天，OpenAI创始人萨姆奥特曼就多次发声，提前预热，给观众留足了悬念：“我们一直在努力开发一些我们认为人们会喜欢的新东西，对我来说感觉就像魔法一样。”

不过，最终呈现的产品，既不是GPT5、也不是搜索引擎，似乎摆了大众一道。

从这点伤说，奥特曼堪称AI圈最懂PR的人。

此前，Sora发布的时间点，恰好赶在 Anthropic 的 Claude3以及其他大模型上线时间段。

彼时Sora登场“抢戏”，就用生成式视频的形式，对其他文本大模型进行降维打击。

于是立即舆论调转，全世界都将聚光灯对准Sora，OpenAI 又成了业界唯一的明星。可值得玩味的是，Sora直至现在，也没有开放给公众使用。

而屡屡“抢戏”的奥特曼，实则有着肉眼可见的急迫与压力。

一方面，OpenAI本次春季开发大会，呼声最高的AI搜索产品，就被放了鸽子。

业内人士曾指出，OpenAI要想在AI聊天机器人领域保持领先，AI搜索是绕不过去的，现在包括谷歌及AI搜索初创公司Perplexity等对手正在发力。

此前，Perplexity已凭借AI搜索和引用功能获得了10亿美元的估值。此外，OpenAI强大的对手谷歌，也在全面AI化它的搜索引擎业务，并计划在下周的开发者大会上公布Gemini AI模型的最新计划。

然而，根据报道，先前ChatGPT搜索的内测资格，虽然总体评价不错，但仍有瑕疵：OpenAI的AI搜索评价是，对于它不知道的信息会去联网，但对于非常实时的信息，依然不能很好地处理。

不仅如此，此次GPT-4O的免费推出，则凸显出OpenAI在增长上的面临的焦虑。

此前，OpenAI的用户增长在短时间内经历了显著的波动。

例如，从2023年初到中期，OpenAI的月活跃用户数量迅速增长，从1亿增加到接近10亿。

然而，进入2024年后，OpenAI的GPT-4的性能下降和用户体验问题开始受到关注。一个直观的例子是，即用户在使用GPT-4时，发现其记忆能力和对指令的遵从性有所下降，这意味着GPT-4可能无法有效地记住之前的对话内容或正确执行复杂的指令。

此外，OpenAI与微软的合作关系紧张也影响了开发者社区，导致一些中小企业开发者选择离开OpenAI平台。

尽管，竞争与增长并非是OpenAI一家难念的经。不过，作为AI的领头羊，OpenAI这次的GPT-4O，或许只能是道开胃小菜。

GPT-4o安装包以及注册教程已备好，需要的小伙伴扫描下方图片自行获取：

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

中年猿人

关注

26
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
深夜重磅炸弹！OpenAI再压谷歌一头，最强模型GPT-4o免费发布，语言对话媲美人类反应

5月14日，OpenAI春季发布会，依旧是奥特曼熟悉的味道：不仅抢在自己最大竞争对手“Google I/O”大会前发布，并在会前数次吹风：“将会带来很有意思的东西。现场，OpenAI首席技术官MiraMurati，在轻松的氛围中宣布：Open AI推出桌面版ChatGPT，并推出名为GPT-4o的全新旗舰人工智能模型。那么，GPT-4o有何特别之处？而堪称AI圈里最懂PR的奥特曼，这一次，有没有继续吹牛？“GPT-4o 可以综合利用语音、文本和视觉信息进行推理。
复制链接

扫一扫