OpenAI推出新模型GPT-4o:可实时交互,检测人的情绪,支持多模态输出

GPT-4o作为OpenAI新发布的人工智能模型,据官方及媒体报道,是面向全球用户发布的,包括中国在内的用户理论上应该能够通过相应平台和应用访问。不过,实际可用性还需考虑地区政策、网络访问限制以及具体平台是否在中国有本地化服务等因素。用户需要关注OpenAI或相关合作平台的正式公告,以获取在中国使用GPT-4o的具体方式和限制。

GPT-4o(“o”代表“omni”)。它可以实现文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。

在GPT-4o之前,使用语音模式与ChatGPT交谈,平均延迟为2.8秒 (GPT-3.5) 和5.4 秒 (GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、歌声或表达情感。

更多可参考: ChatGPT Plus使用指南

此外还具有以下几个显著特点和优势:

1.多模态能力:GPT-40的大突破在于其原生的多模态特性能够接收和处理文本、音频冬像等不同形式的输入,并输出多种形式的内容,这是以前的模型难以比拟的。这种能力极大地扩展了AI的应用范围,使交互更加自然和全面。

2.高性能与低成本:报道指出GPT-4o相比前代模型在推理速度上有了显著提升,同时成本降低,这对于商业应用和个人用户都是极为有利的,意味着更高效、更经济的AI解决方案。

3.易用性提升:GPT-40增强了易用性,不仅支持50多种语言,而且在文本、视频和音频处理方面都有所改进,为全球用户提供更广泛的服务覆盖和更好的用户体验。

4.情感与交互:新模型在语音对话方面的优化使得交互响应速度更快,更加流畅,接近人类水平,这在提升用户满意度和沉浸感方面迈出了重要一步。

5.创新应用潜力:GPT-40的推出,为开发者打开了新的大门,尤其是在数据分析、图像分析互联网搜索、应用开发等领域,有望催生一系列创新应用和服务。

借助GPT-4o,OpenAI在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。

按照传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。

基于GPT-4o的能力,新的ChatGPT不仅可以实现实时交互,还能检测人的情绪,支持多模态输出。

在现场,OpenAI的工程师展示新模型的能力时说:“我第一次来直播的发布会,有点紧张。”

ChatGPT说:“要不你深呼吸一下。”

OpenAI工程师深呼吸后,ChatGPT立即说:“你这不行,喘得也太大了。”

视觉能力上,ChatGPT不需要上传图片,而是直接打开摄像头,实时看发生了什么。

OpenAI的人直接开始现场写方程,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。


甚至,用户可以直接跟ChatGPT视频对话,ChatGPT可以看到用户所有的表情和情绪变化。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。GPT-4o在免费套餐中提供,并向Plus用户提供高达5倍的消息限制。在未来几周内,ChatGPT Plus将推出带有GPT-4o的新版本语音模式。

  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值