GPT-4o的多模态能力、实时交互能力展示

简介

在这里插入图片描述

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一大步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合作为输出。它可以在232毫秒内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英文文本和代码方面与GPT-4 Turbo性能相当,并且在非英语文本方面有显著改进,同时速度更快且API费用降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面表现特别出色。

在GPT-4o之前,你可以使用语音模式与ChatGPT交谈,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接受文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着主要智能源GPT-4丢失了很多信息——它不能直接观察到语调、多个说话者或背景噪音,并且不能输出笑声、歌唱或表达情感。

有了GPT-4o,我们训练了一个全新的模型,它贯穿了文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模态的模型,我们仍然只是初步探索了模型的功能和局限性。
在这里插入图片描述
GPT-4o可以理解视频内容,语音内容ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会写代码的孙悟空

赠人玫瑰 手有余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值