OpenAI的《Her》为何迟迟未能面世？

TechQuester

于 2024-07-27 19:21:59 发布

阅读量467

点赞数 21

文章标签：人工智能 chatgpt 算法 python 大数据

本文链接：https://blog.csdn.net/ElevenSakura/article/details/140739811

版权

OpenAI的《Her》为何迟迟未能面世？

距今已有两个多月，我们依然未见到OpenAI《Her》的正式发布。

5月14日，OpenAI发布了GPT-4o及其端到端实时音视频对话模式，现场演示展示了AI对话的流畅度，几乎与人类无异。

该系统能够感知用户的呼吸节奏，并以更为丰富的语气实时回复，甚至可以在对话中随时打断AI，效果令人惊艳。

然而，尽管备受期待，推迟发布的消息却时有传出。

01 延迟发布的原因

究竟是什么原因拖延了OpenAI的发布进程？根据现有信息：

首先，法律纠纷是一个重要因素，必须确保语音音色不会再次引发类似于斯嘉丽·约翰逊的争议。

其次，安全问题也需要解决，特别是对齐问题以及实时音视频对话可能被滥用于诈骗等新兴风险场景。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

02 技术挑战与困难

除了上述问题，还有哪些技术挑战需要克服呢？

随着最初的热潮渐渐平息，内行人士开始关注细节。

一些眼尖的网友可能已经注意到，发布会现场的演示手机是通过网线连接的。

在业内人士看来，GPT-4o发布会的演示效果虽然流畅，但受限于几个关键条件：

固定的网络环境
固定的设备
固定的物理环境

公开发布后，全球用户能否获得与发布会相同的体验，仍然是未知数。

发布会现场还有一个有趣的细节：研究员Barret Zoph在演示视频通话时，被ChatGPT误认为是桌子。

这一细节暴露了视频通话部分的延迟问题：语音部分的问题已经处理完毕，而视觉部分还在处理之前的镜头，即手机刚被拿起时摄像头拍到的木桌。

低延时与多设备适配

要实现低延时和多设备适配，关键在于RTC（实时通信，Real-Time Communications）技术。

在AI时代之前，RTC技术已经广泛应用于直播和视频会议等场景，并且发展较为成熟。

从RTC的角度来看，用户的语音提示在输入大模型之前，需要经过一整套复杂的流程：

信号采集与预处理：在端侧设备（如手机）上采集用户的语音信号，并进行降噪和回声消除等预处理，为后续的语音识别做好准备。

语音编码与压缩：为了节省传输带宽，需要对语音信号进行编码和压缩。同时，根据网络实际情况自适应地加入冗余和纠错机制，以抵抗网络丢包。

网络传输：压缩后的语音数据被切分成数据包，通过互联网传输到云端。如果服务器距离较远，传输过程中需要经过多个节点，每一跳都可能引入延迟和丢包。

语音解码与还原：数据包到达服务器后，系统对其进行解码，还原出原始的语音信号。

最终，AI通过Embedding模型将语音信号转化为tokens，才能让端到端多模态大模型理解并生成回复。

当然，大模型生成回复后，还需要经过相反的流程，将回复的音频信号传回用户。

03 总结

OpenAI的《Her》项目虽然展示了令人期待的技术进步，但要实现低延时、多设备适配等目标，仍然面临诸多挑战。

RTC技术在其中扮演了关键角色，但其复杂的流程和可能的延迟问题，需要进一步的优化和解决。

只有克服这些技术和法律障碍，才能确保在全球范围内提供一致且高质量的用户体验。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard