GPT-4o的多模态能力、实时交互能力展示

最新推荐文章于 2024-06-05 14:18:06 发布

会写代码的孙悟空

最新推荐文章于 2024-06-05 14:18:06 发布

阅读量155

点赞数

分类专栏： chatGPT 文章标签：人工智能 chatgpt GPT-4o 深度学习算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/artistkeepmonkey/article/details/139009445

版权

chatGPT 专栏收录该内容

32 篇文章 99 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

简介

在这里插入图片描述

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一大步——它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。它可以在232毫秒内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。它在英文文本和代码方面与GPT-4 Turbo性能相当，并且在非英语文本方面有显著改进，同时速度更快且API费用降低了50%。与现有模型相比，GPT-4o在视觉和音频理解方面表现特别出色。

在GPT-4o之前，你可以使用语音模式与ChatGPT交谈，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5或GPT-4接受文本并输出文本，第三个简单模型将文本转换回音频。这个过程意味着主要智能源GPT-4丢失了很多信息——它不能直接观察到语调、多个说话者或背景噪音，并且不能输出笑声、歌唱或表达情感。

有了GPT-4o，我们训练了一个全新的模型，它贯穿了文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模态的模型，我们仍然只是初步探索了模型的功能和局限性。
在这里插入图片描述
GPT-4o可以理解视频内容，语音内容ÿ

了解本专栏

超级会员免费看

会写代码的孙悟空

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
GPT-4o的多模态能力、实时交互能力展示

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一大步——它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

会写代码的孙悟空 赠人玫瑰手有余香

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。