OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出

最新推荐文章于 2024-07-28 15:37:27 发布

LunarWave

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量1.1k

点赞数 12

分类专栏： AI学习文章标签：人工智能 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59192927/article/details/138849184

版权

AI学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

GPT-4o作为OpenAI新发布的人工智能模型，据官方及媒体报道，是面向全球用户发布的，包括中国在内的用户理论上应该能够通过相应平台和应用访问。不过，实际可用性还需考虑地区政策、网络访问限制以及具体平台是否在中国有本地化服务等因素。用户需要关注OpenAI或相关合作平台的正式公告，以获取在中国使用GPT-4o的具体方式和限制。

GPT-4o（“o”代表“omni”）。它可以实现文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。

在GPT-4o之前，使用语音模式与ChatGPT交谈，平均延迟为2.8秒（GPT-3.5）和5.4 秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。

更多可参考: ChatGPT Plus使用指南

此外还具有以下几个显著特点和优势：

1.多模态能力:GPT-40的大突破在于其原生的多模态特性能够接收和处理文本、音频冬像等不同形式的输入,并输出多种形式的内容，这是以前的模型难以比拟的。这种能力极大地扩展了AI的应用范围，使交互更加自然和全面。

2.高性能与低成本:报道指出GPT-4o相比前代模型在推理速度上有了显著提升，同时成本降低，这对于商业应用和个人用户都是极为有利的，意味着更高效、更经济的AI解决方案。

3.易用性提升:GPT-40增强了易用性，不仅支持50多种语言，而且在文本、视频和音频处理方面都有所改进，为全球用户提供更广泛的服务覆盖和更好的用户体验。

4.情感与交互：新模型在语音对话方面的优化使得交互响应速度更快，更加流畅，接近人类水平，这在提升用户满意度和沉浸感方面迈出了重要一步。

5.创新应用潜力:GPT-40的推出，为开发者打开了新的大门，尤其是在数据分析、图像分析互联网搜索、应用开发等领域，有望催生一系列创新应用和服务。

借助GPT-4o，OpenAI在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。

按照传统基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。

基于GPT-4o的能力，新的ChatGPT不仅可以实现实时交互，还能检测人的情绪，支持多模态输出。

在现场，OpenAI的工程师展示新模型的能力时说：“我第一次来直播的发布会，有点紧张。”

ChatGPT说：“要不你深呼吸一下。”

OpenAI工程师深呼吸后，ChatGPT立即说：“你这不行，喘得也太大了。”

视觉能力上，ChatGPT不需要上传图片，而是直接打开摄像头，实时看发生了什么。

OpenAI的人直接开始现场写方程，所有的一切ChatGPT都看在眼里，OpenAI的人一边写，ChatGPT一遍给答案。

甚至，用户可以直接跟ChatGPT视频对话，ChatGPT可以看到用户所有的表情和情绪变化。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。GPT-4o在免费套餐中提供，并向Plus用户提供高达5倍的消息限制。在未来几周内，ChatGPT Plus将推出带有GPT-4o的新版本语音模式。

关注

12
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出

GPT-4o（“o”代表“omni”）。它可以实现文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。
复制链接

扫一扫

专栏目录

LunarWave CSDN认证博客专家 CSDN认证企业博客

码龄3年

21: 原创

117万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

743: 积分

340: 粉丝

476: 获赞

14: 评论

294: 收藏

私信

关注

热门文章

分类专栏

最新评论

OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出
征途黯然.: 在OpenAI推出新模型GPT4o可实时交互检测人的情绪支持多模态输出方面的专业知识令人钦佩，文章非常有价值。
OpenAI推出新模型GPT-4o：可实时交互，检测人的情绪，支持多模态输出
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章是我每次学习的指南，总是解答了我遇到的问题。支持博主优质文章，讲解得非常详细，干货满满，通俗易懂，期待博主下次更新。感谢博主的付出，期待更多的精彩内容！
【笔记】OpenAI API速率限制Rate limits介绍
CSDN-Ada助手: 恭喜您撰写了第19篇博客，内容关于OpenAI API速率限制Rate limits介绍，对读者们一定有很大帮助。继续保持持续创作的热情和努力，希望您可以继续分享关于人工智能领域的知识和经验，或者探讨一些新颖有趣的技术话题，让更多人受益。祝您越来越好，期待您的下一篇博客！
LeetCode第78题
CSDN-Ada助手: 恭喜您写了第20篇博客！看到您继续坚持创作，真的很开心。LeetCode第78题的解析也十分详细，让我受益匪浅。接下来，建议您可以尝试写一些关于实际项目经验的分享，或者是一些算法题目的进阶解析，这样能够更全面地展示您的技术水平。期待您更多精彩的创作！
阿里通义灵码全面公测，来看看它的水平怎么样？
CSDN-Ada助手: 恭喜用户第18篇博客的成功发布！阿里通义灵码全面公测这个主题确实很引人关注，也很期待您的深度分析。希望您在接下来的创作中能够继续保持热情，多多挖掘互联网科技的发展趋势，为我们带来更多有见地的观点和见解。希望您能够保持谦虚的态度，不断学习和进步，为读者带来更多有价值的内容。加油！

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。