OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂

图片

在这里插入图片描述

如果说黄仁勋(Jensen Huang)是科技届的泰勒·斯威夫特,以亲和力和号召力获得了一众拥趸,那萨姆·奥尔特曼(Sam Altman)就有些像AI届的金·卡戴珊,永远擅长制造话题和抢风头。

图片

最近两周,关于OpenAI将要推出搜索引擎的传言沸沸扬扬,所有的聚光灯都投射在奥尔特曼身上。正当大家期待值快达到顶峰时,这位硅谷的“当红炸子鸡”上周五突然跳出来,宣布OpenAI的春季产品发布会将在5月10日进行,正好是谷歌I/O开发者大会的前一天。他还在推特上承诺将带来一些“具有魔力”的更新,这样一套“营销组合拳”不仅为OpenAI造足了势头,也使得谷歌的“预热声”瞬间哑火。

那么在周一的发布会上,OpenAI究竟推出了什么“魔力(magic)”产品?

GPT-4o,OpenAI首款能分析情绪的多模态大型语言模型

美西时间上午10点整,OpenAI首席技术官米拉·穆拉提(Mira Murati)进入了直播室,向观众介绍了这次春季大更新,其中包括桌面版本的ChatGPT,更新的用户界面,以及最重要的,新的旗舰模型—GPT-4o。

在这里插入图片描述

(穆拉提在发布会现场)

GPT-4o中的“o”代表“Omnimodal”,顾名思义,这是一个基于GPT-4之上的多模态大模型。

更值得关注的是,GPT-4o能够与用户进行多样化的语气交互,并精准捕捉到用户的情绪变化,这是一大进步。与之前版本仅通过“语音转文字(voice-to-text)”来识别语音输入不同,GPT-4o能够实时处理语音输入并响应用户的情感和语气。

在直播过程中,两位OpenAI的员工向大家展示了GPT-4o的更新细节。

1.感知用户情绪:前沿研究部门主管陈信翰(Mark Chen)让ChatGPT-4o聆听他的呼吸,聊天机器人侦测到他急促的呼吸,并幽默地建议他不要像吸尘器那样呼吸,要放慢速度。随后Mark深呼吸一次,GPT-4o则表示这才是正确的呼吸方式。

2.具备不同情绪的声音:陈信翰示范了ChatGPT-4o如何用不同的声音朗读AI生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。

图片

(ChatGPT-4o根据指示变换语调让大家捧腹**大笑)

3.实时视觉功能:研究员巴雷特·佐夫(Barret Zoph)演示了如何让ChatGPT-4o通过手机摄像头实时解决数学问题,仿佛一位真实的数学老师在旁边指导每一个解题步骤。此外,ChatGPT-4o还能通过前置摄像头观察用户的面部表情,分析其情绪。

图片

(巴雷特·佐夫展示在ChatGPT-4o的逐步指导下解方程式)

4.更即时的语音交互:ChatGPT-4o的响应时间得到缩短,与用户的交互更加即时。穆拉提和陈信翰利用新的聊天机器人展示了跨语言的实时翻译功能,能够在英语和意大利语之间无缝转换。

由此可见,这次更新的重点在于使聊天机器人不再那么机械冷漠,而是更加接近真实人类,能够理解并表达情绪。那么,GPT-4o是如何实现情感识别的呢?

OpenAI目前还没有公布更多的技术细节,但根据其在官网的概述,在GPT-4o之前,使用ChatGPT的语音模式时,需要通过三个相互独立的模型来进行接力处理:

1. 第一个模型将音频转换为文本;

2. 接着由GPT-3.5或GPT-4处理文本输入并输出文本;

3. 最后一个模型再将文本转换回音频。

这种处理方式常导致信息的大量丢失,例如无法捕捉到语调、识别多个说话者或背景噪音,也无法生成笑声、歌唱或其他情感表达。

GPT-4o的创新之处在于,它是OpenAI的首个整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型,实现了所有输入和输出的处理都由同一个神经网络完成

除了多模态输入输出,GPT-4o还具备更快的响应速度:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,接近人类在对话中的响应时间

GPT-4o在英语文本和代码上的性能与GPT-4 Turbo性能相当,在非英语文本上的性能显著提高,同时API的速度也更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

为了给大家一个更直观的感受,我们让ChatGPT-4生成了一个对比GPT-4o和GPT-4 Turbo的表格:

在这里插入图片描述

科技博主“All About AI”也在YouTube上展示了GPT-4o和GPT-4 Turbo的反应速度(下图)。

在这里插入图片描述

通过同时向GPT-4o(左)和GPT-4 Turbo(右)提出相同要求—“写三段关于19世纪在巴黎生活的内容”—我们可以观察到当GPT-4o已经完成处理并做出回应时,GPT-4 Turbo仍在进行输出处理。

GPT-4o在5216毫秒(5.216秒)内处理了574个Token,约等于 110 Token/秒;GPT-4 Turbo在23442毫秒(23.442秒)内处理了474个Token,约等于20 Token/秒。前者的处理速度是后者的大约5.44倍。

发布会之后,一名OpenAI的研究员在自己的推文中证实,此前出现在测试网站上的神秘 GPT-2 聊天机器人确实就是GPT-4o。

图片

“GPT-4o 是我们最新的前沿模型。我们已经在LMSys上测试了一个版本,也就是 im-also-a-good-gpt2-chatbot。” 威廉·费杜斯(WIlliam Fedus)在自己的推特上介绍到,并且得到了奥尔特曼的转发。

“ELO分数最终可能受到提示难度的限制。我们发现在更难的提示集上 — 尤其是编程 — GPT-4o 的ELO比我们之前最好的模型高出100分,”这位工程师补充道。

从下图可以看出,GPT-4o(也就是im-also-a-good-gpt2-chatbot)的表现一骑绝尘,远高于其他大模型。

在这里插入图片描述

穆拉提还在春季发布会上宣布,GPT-4o的文本和图像功能已开始向付费的ChatGPT Plus和Teams用户提供,并将很快推广至企业用户。同时,免费用户也将逐步获得使用权限,但需受到速率的限制。GPT-4o的语音功能预计将在未来几周内向用户开放。

目前,开发者已能通过API使用GPT-4o的文本和视觉模式。

此外,OpenAI还对ChatGPT的用户界面(UI)进行了优化,并且推出了适用于macOS系统的ChatGPT应用程序,已向付费用户开放。该公司表示今年晚些时候还将推出Windows版本的ChatGPT应用程序。

苹果将用GPT-4o取代自家语音助手Siri?

GPT-4o的推出带动了苹果股价小幅上涨。

上周五,彭博社报道称苹果正考虑在下一代iOS18系统中集成ChatGPT技术。如果与OpenAI达成协议,苹果可能会推出基于ChatGPT的聊天助理,作为公司计划在6月发布的一系列新人工智能功能之一。

图片

(彭博社报道)

多年来,苹果一直是包括沃伦·巴菲特在内的顶级投资者和投资机构青睐的科技股,并且是市值第一大科技公司,但近年来涨幅却跑输其他大科技公司。

今年以来,苹果股价下跌了2%左右,而微软股价则上涨了10% 以上。得益于其在AI领域的领先地位(特别是与OpenAI的深度合作)以及在云业务和办公套件中加入AI技术,微软已成为全球市值最高的公司,这一领先地位看似还将持续一段时间。

纵观其他Magnificent 7公司的市值:谷歌凭借Gemini增长了20%,拥有开源大语言模型LLaMA的Meta上涨了32%,投资了明星AI初创企业Antropic的亚马逊增长了22%;被誉为AI行业“军火商”的芯片公司英伟达的市值更是增长了82%之多。(注:Magnificent 7是指7家拥有垄断/寡头地位、定价能力、长期盈利能力的科技公司,即微软、谷歌、Meta、亚马逊、英伟达、苹果和特斯拉。)

分析师们普遍认为,苹果的增速放缓主要归因于核心业务iPhone增长疲软,以及缺乏新的AI产品线。虽然Siri作为AI语音助手于2011年推出,但在准确性和实用性方面远逊于谷歌、亚马逊和OpenAI的竞品。

另一方面,手机业务的竞争对手们也已先于苹果在手机中引入新的AI功能。例如,三星电子最近推出的高端Galaxy手机采用了最新的生成式AI技术,提供实时语言翻译、总结笔记和编辑照片等功能。

面对来自四面八方的压力,苹果在今年二月宣布取消长达十年的造车计划,并将部分员工转至生成式AI团队,标志着AI将成为公司未来发展的重点。

在5月2日与分析师举行的电话会议上,蒂姆·库克称凭借将硬件、软件和服务无缝集成的能力,苹果有优势在AI时代脱颖而出。这位首席执行官在去年就表示使用过ChatGPT,并认为当时的ChatGPT还有很多问题需要解决。他反复强调,苹果将在“非常深思熟虑的基础上”引入新的AI功能,这可能解释了为什么苹果在推出AI产品线方面进展缓慢。

那么GPT-4o是否达到了库克的标准?相信在6月份苹果举办的年度全球开发者大会,我们能够见分晓。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 35
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值