大模型再进化，实时互动成为未来核心能力

网易智企

于 2024-05-24 09:00:34 发布

阅读量257

点赞数 4

文章标签：实时互动人工智能

本文链接：https://blog.csdn.net/netease_im/article/details/139172141

版权

就在上周，OpenAI 又在 AI 湖面抛下一块大石，激起了千层浪：全新一代旗舰生成模型 GPT-4o 登场了。从现场演示来看，它与人类进行了一轮轮无缝衔接的对话，丝滑得就像真人，不仅响应时间极短，还能识别人类语气，幽默地接住一个个梗，实现了令人惊艳的体验飞跃。

01 大模型走向高实时互动

RTC 技术大有可为

在 GPT-4o 诞生之前，我们当然也可以通过语音与 ChatGPT 交谈，不过对话延迟非常感人。

GPT-3.5 给出回应的延迟约为 2.8 秒，GPT-4 延迟则为 5.4 秒，这期间经历了三个过程：通过一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并处理输出文本，再通过另一个模型将文本转换成音频输出。

GPT-4o诞生前音频处理流程示意

多道转化处理工序，不仅意味着久到离谱的延迟，也意味着大量信息的丢失，GPT 无法直接获取信息，自然也无法通过转化后的文本观察说话人的语调和情绪。

而在即时反应、语言理解等方面，GPT-4o 取得了突破性进展，它是一款真正的多模态大模型，能够实时对音频、视觉和文本进行演绎推理，所有的输入和输出都由同一个神经网络处理，对音频输入做出反应的时间平均为 320 毫秒，几乎与人类对话无异。

GPT-4o的音频处理流程示意

OpenAI 作为如今全球 AI 发展的领头羊，一举一动都有着技术风向标的意义。GPT-4o 在实时交互能力上的长足进步，意味着实时多模态将成为大模型进化的新方向。

为了在全球范围内实现尽可能快的响应速度，除了大模型本身的迭代升级外，提供语音/图像低延时传输能力的 RTC 技术至关重要，因此在此次迭代中，OpenAI 还首次接入了 RTC SDK。

02 RTC如何发挥优势

让大模型变得更实时？

如何充分发挥 RTC 技术优势，让大模型变得更实时的呢？

在发布会的现场演示环节，GPT-4o 扮演了一次“在线导师”的角色，用户打开摄像头将手写的方程式录制下来，它就能快速鼓励和引导用户完成解题，这就得益于 GPT-4o 实时视频输入和识别的能力。

在 GPT-4o 之前，这类语音识别、音频处理或生成的应用，通常是在终端采集音频后，直接将原始裸数据发送给大模型。这个过程中，首当其冲要克服的就是延迟问题。

一般情况下延迟主要来自两个方面：数据量大带来的延迟、边缘网络接入问题造成的延迟。

● 数据量大带来的延迟：视频文件的原始数据远比文本/音频文件更大，举例来说，一帧 720p 的 RGB 图像大小就达到了 2.7MB 左右，若不经过压缩处理很难在互联网上传输，大文件传输造成的延迟不可忽略。

● 边缘网络接入问题造成的延迟：用户边缘终端与大模型机房的物理距离可能非常远。例如：亚洲用户访问 GPT-4o 可能需要跨越半个地球进行数据传输，很难保证可靠性和实时性。

而在接入 RTC 技术后，GPT-4o 延迟问题迎刃而解，通过在终端设备上对音视频进行编码压缩来降低传输数据量，同时通过 QoS 和就近接入来解决边缘网络问题，将音视频跨国传输降低到 300ms 内，为大模型打造更极致的交互体验，达成如真人对话似的效果。

03 大模型实时化

打开更广阔的场景想象空间

在场景落地方面，更实时的大模型有着更广阔的想象空间。

例如：搭载 GPT-4o 的游戏内 NPC 具备了强大的理解能力，能自主生成音频对话内容，懂玩家意图、跟玩家互动、与玩家合作，甚至建立深度的人机社交关系，带来沉浸式的游戏体验；

实时交互的大模型能成为很好的口语老师，语音教学的同时给予即时反馈；

在电商大促时期，具备甜妹人声的 AI 客服能解答消费者的疑问，也能抚平消费者处理售后问题时的烦躁。

甚至具备更强的社会和公益价值。谷歌曾经展示过 AI 在帮助弱视人群方面的能力。我们都喜欢用自拍模式记录生活日常，这个看似简单的动作对于弱视人士来说却很难，受限于视力障碍，他们难以看清自拍时画面中的一切。Google Pixel 手机上的引导框功能能知晓画面内容，并结合音频提示、触觉反馈等帮助盲人和低视力人群完成自拍和合影。

Google AI 帮助弱视人士记录美好生活

若将 GPT-4o 融入该场景，相信它的实时视频输入和识别能力会为视障人士带来更好的体验，让不幸的人也能记录下美好生活片段。

04 网易云信 RTC

助力 AI 未来场景实现

网易云信是全球领先的融合通信云服务提供商，提供包括实时音视频、即时通讯、短信服务在内的全方位解决方案，RTC 服务以其稳定性和安全性，赢得了各行业头部企业的信任。

在超低延时传输方面，目前多数 AI 能力实现依赖于云端的 GPU 算力，为了优化端到端的用户体验，利用 RTC 的低延时特性可以显著提升全链路 AI 应用的效果的核心能力，尤其是在需要快速响应的应用场景中。网易云信 RTC 自研了低延时传输协议和全链路智能 QoS 传输算法，依托 WE-CAN 全球智能路由网络，最终实现了极致的端到端 300ms 延时。

为了实现实时的语音和视频交互，丰富易用的云端媒体处理 Pipeline 也是非常核心的能力。网易云信的云端 MPS（Media Process Server）服务将传输、解码、处理（包括AI处理）、编码、转推等全链路都做标准 Pipeline，并且各个模块都是可插拔的，能够非常好地将各类 AI 处理嵌入到音视频流的获取和生成流程中。

MPS AI 处理 Pipeline 示意图

AI 是一柄锋利的双刃剑，在带来体验革新的同时，并存着诸多的技术应用风险。聚焦到音频生成、视频生成以及实时通话、直播等场景，比较突出的问题在于版权问题、隐私安全、伦理道德等方面，此外视频换脸、语音模拟、不当使用造成的个人隐私泄露、身份欺诈、虚假和有害信息传播等风险，也在 AI 加持下被显著放大。

在这方面，网易云信联合网易易盾推出一站式安全检测方案——安全通，为 IM、RTC 和直播点播提供完备的 AIGC 内容安全解决方案。同时提供声音伪造、视频伪造检测等防御性识别能力，确保创作的内容不被用于有害或非法目的。

除此之外，目前云信已在网易内部内测基于大模型的一站式音视频解决方案，包括了多项云端 AI 能力，例如：AI 语音助手、实时字幕、实时摘要、通话高光时刻总结等等，很快我们将对外开放这些能力。当然，除了基于网易自研的云端 AI 能力，我们也在研发与各大模型厂商构建方便易用的 AI Agent 通用架构，并基于此帮助企业快速构建低延时、高清的 AI 音视频产品应用。

云信 AI Agent 示意图

关于我们

干货资料免费领取

【扫描二维码】即可免费领取！

网易智企

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大模型再进化，实时互动成为未来核心能力

就在上周，OpenAI 又在 AI 湖面抛下一块大石，激起了千层浪：全新一代旗舰生成模型 GPT-4o 登场了。从现场演示来看，它与人类进行了一轮轮无缝衔接的对话，丝滑得就像真人，不仅响应时间极短，还能识别人类语气，幽默地接住一个个梗，实现了令人惊艳的体验飞跃。01 大模型走向高实时互动RTC 技术大有可为在 GPT-4o 诞生之前，我们当然也可以通过语音与 ChatGPT 交谈，不过对话延迟非常...
复制链接

扫一扫