GPT-4o背后的语音技术

镰刀韭菜

已于 2025-01-15 23:23:52 修改

阅读量897

点赞数 2

分类专栏：语音识别与实战文章标签： GPT-4o 语音技术语音语言模型 SLM 大语言模型 LLM 掩码语言模型

于 2025-01-15 23:10:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ARPOSPF/article/details/145170115

版权

语音识别与实战专栏收录该内容

23 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

GPT-4o背后的语音技术

GPT-4o是一个any2any的多模态模型，能够接受文本、音频、图像、视频等多模态输入，也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。本文主要谈语音多模态的实现，并分享一些对于语音研究未来发展的看法。

GPT-4o (“o” 代表 “omni”) 是迈向更自然的人机交互的一步ーー它接受任何文本、音频、图像和视频的组合作为输入，并生成任何文本、音频和图像输出的组合。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类对话的响应时间 (打开一个新窗口) 相似。它匹配 GPT-4 Turbo 在英语和代码文本上的性能，在非英语语言的文本上有显著的改进，同时在 API 上也更快和便宜 50% 。与现有型号相比，GPT-4o 在视觉和音频理解方面表现得尤为突出。

OpenAI的原始博客：https://openai.com/index/hello-gpt-4o/

当我们主要关注文本和语音模态时，GPT-4o其实就是一个语音语言模型(speech language model, SLM) 。该SLM同时具备语音理解能力和语音合成能力，输入端和输出端均支持文本和语音的混合多模态。那么，这一SLM应该如何实现呢？在大语言模型(

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

镰刀韭菜 看在我不断努力的份上，支持我吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。