对于 OpenAI 最新发布支持实时语音对话的模型GPT-4o，我想说

本文链接：https://blog.csdn.net/csdn565973850/article/details/141561055

对于 OpenAI 最新发布支持实时语音对话的模型GPT-4o，我想说

GPT-4o
GPT-4o相比前代有哪些显著的技术提升？
OpenAI发完GTP-4o，国内大模型行业还有哪些机会？

2024年5月14日凌晨，OpenAI宣布推出GPT-4o，GPT-4o在处理速度上提升了高达200%，同时在价格上也实现了50%的下降，GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等，将对所有用户免费开放。该模型凭借超高速的语音响应能力和多模态交互革新，重新定义了AI语音对话的边界。那么面对这样一款在人机语音交互上有突破性进展的对话模型，你有哪些想说的呢？
那么下面个人从开发者的角度，细细同大家聊聊。

GPT-4o

首先来说一下，什么是GPT-4o？在GPT-4出来时，大家猜测的下一代是GPT-5，但是GPT-4o的出现，并不是当初的猜想，那么为什么会是GPT-4o呢？
GPT-4o的名称中“o”代表Omni，即全能的意思，百度翻译是
在这里插入图片描述
GPT-4o是OpenAI的新旗舰模型，能够实时处理音频、视觉和文本，响应更快、处理更快、效率更高，不仅是人机语音对话体验更接近人与人之间的实时对话，视觉识别能力的进步也让 AI 更能基于现实世界进行语音交互。也就是更像人了。
在这里插入图片描述

GPT-4o相比前代有哪些显著的技术提升？

GPT-4o想比前代它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，而不是像前代一样，先通过模型将语音转录成文本，再通过 GPT-3.5/GPT-4 进行处理和输出，最后再通过文本转语音模型将文本转录为语音。这样无疑会使得用户使用语音模式与ChatGPT对话时，会无端的增大延时，比如：GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒。同时多次转换的结果也会导致音频输入后由于处理方式丢失大量信息。

另外，GPT-4o 是跨文本、视觉和音频端到端训练的新模型，在新的语音模式下所有输入和输出都由同一个神经网络处理。甚至不只是文本和语音，新的语音模式还能基于手机摄像头的实时画面进行对话。这些也都使得GPT-4o更接近自然人的感觉了。

OpenAI发完GTP-4o，国内大模型行业还有哪些机会？

俗话说，科学无国界，那么GTP-4o的发布，并不会限制国内大模型行业的发展，而会为国内大模型行业带来技术革新、应用拓展、生态构建等多方面的机遇。

对于国内大模型来说，基于GPT-4o具备的多模态处理能力，国内大模型可以聚焦于开发结合文本、图像、语音等多种输入形式的创新应用，比如智能客服、教育辅导、医疗诊断辅助、虚拟现实交互等，探索AI在更复杂场景中的应用。GPT-4o 可以跨文本、音频和视频进行实时推理，这是向更自然的人机交互（甚至是人 - 机器 - 机器交互）迈出的重要一步。那么国内大模型就可以沿着这个方向继续努力让人机交互更像人，甚至成为自然人，这些都可以成为国内大模型的挑战和机会。