大模型再进化,实时互动成为未来核心能力

就在上周,OpenAI 又在 AI 湖面抛下一块大石,激起了千层浪:全新一代旗舰生成模型 GPT-4o 登场了。从现场演示来看,它与人类进行了一轮轮无缝衔接的对话,丝滑得就像真人,不仅响应时间极短,还能识别人类语气,幽默地接住一个个梗,实现了令人惊艳的体验飞跃。

02b8c195a5014c3b1f3bc5d89ab65e35.gif

01 大模型走向高实时互动

RTC 技术大有可为

在 GPT-4o 诞生之前,我们当然也可以通过语音与 ChatGPT 交谈,不过对话延迟非常感人。

GPT-3.5 给出回应的延迟约为 2.8 秒,GPT-4 延迟则为 5.4 秒,这期间经历了三个过程:通过一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并处理输出文本,再通过另一个模型将文本转换成音频输出。

9a451e12f6d5c1df90c1bc815be45ff1.png

GPT-4o诞生前 音频处理流程示意

多道转化处理工序,不仅意味着久到离谱的延迟,也意味着大量信息的丢失,GPT 无法直接获取信息,自然也无法通过转化后的文本观察说话人的语调和情绪。

而在即时反应、语言理解等方面,GPT-4o 取得了突破性进展,它是一款真正的多模态大模型,能够实时对音频、视觉和文本进行演绎推理,所有的输入和输出都由同一个神经网络处理,对音频输入做出反应的时间平均为 320 毫秒,几乎与人类对话无异。

8c898f80c8a1203dcbb428e5863c66d3.png

GPT-4o的音频处理流程示意

OpenAI 作为如今全球 AI 发展的领头羊,一举一动都有着技术风向标的意义。GPT-4o 在实时交互能力上的长足进步,意味着实时多模态将成为大模型进化的新方向。

为了在全球范围内实现尽可能快的响应速度,除了大模型本身的迭代升级外,提供语音/图像低延时传输能力的 RTC 技术至关重要,因此在此次迭代中,OpenAI 还首次接入了 RTC SDK。

02 RTC如何发挥优势

让大模型变得更实时?

如何充分发挥 RTC 技术优势,让大模型变得更实时的呢?

在发布会的现场演示环节,GPT-4o 扮演了一次“在线导师”的角色,用户打开摄像头将手写的方程式录制下来,它就能快速鼓励和引导用户完成解题,这就得益于 GPT-4o 实时视频输入和识别的能力。

在 GPT-4o 之前,这类语音识别、音频处理或生成的应用,通常是在终端采集音频后,直接将原始裸数据发送给大模型。这个过程中,首当其冲要克服的就是延迟问题。

一般情况下延迟主要来自两个方面:数据量大带来的延迟、边缘网络接入问题造成的延迟。

● 数据量大带来的延迟:视频文件的原始数据远比文本/音频文件更大,举例来说,一帧 720p 的 RGB 图像大小就达到了 2.7MB 左右,若不经过压缩处理很难在互联网上传输,大文件传输造成的延迟不可忽略。

● 边缘网络接入问题造成的延迟:用户边缘终端与大模型机房的物理距离可能非常远。例如:亚洲用户访问 GPT-4o 可能需要跨越半个地球进行数据传输,很难保证可靠性和实时性。

而在接入 RTC 技术后,GPT-4o 延迟问题迎刃而解,通过在终端设备上对音视频进行编码压缩来降低传输数据量,同时通过 QoS 和就近接入来解决边缘网络问题,将音视频跨国传输降低到 300ms 内,为大模型打造更极致的交互体验,达成如真人对话似的效果。

ec5f1aaaa80d2520ddee4960872517e7.png

03 大模型实时化

打开更广阔的场景想象空间

在场景落地方面,更实时的大模型有着更广阔的想象空间。

例如:搭载 GPT-4o 的游戏内 NPC 具备了强大的理解能力,能自主生成音频对话内容,懂玩家意图、跟玩家互动、与玩家合作,甚至建立深度的人机社交关系,带来沉浸式的游戏体验;

实时交互的大模型能成为很好的口语老师,语音教学的同时给予即时反馈;

在电商大促时期,具备甜妹人声的 AI 客服能解答消费者的疑问,也能抚平消费者处理售后问题时的烦躁。

甚至具备更强的社会和公益价值。谷歌曾经展示过 AI 在帮助弱视人群方面的能力。我们都喜欢用自拍模式记录生活日常,这个看似简单的动作对于弱视人士来说却很难,受限于视力障碍,他们难以看清自拍时画面中的一切。Google Pixel 手机上的引导框功能能知晓画面内容,并结合音频提示、触觉反馈等帮助盲人和低视力人群完成自拍和合影。

a4e5ca1ba789c0c4e9107d0ba6e373d7.gif

Google AI 帮助弱视人士记录美好生活

若将 GPT-4o 融入该场景,相信它的实时视频输入和识别能力会为视障人士带来更好的体验,让不幸的人也能记录下美好生活片段。

04 网易云信 RTC

助力 AI 未来场景实现

网易云信是全球领先的融合通信云服务提供商,提供包括实时音视频、即时通讯、短信服务在内的全方位解决方案,RTC 服务以其稳定性和安全性,赢得了各行业头部企业的信任。

在超低延时传输方面,目前多数 AI 能力实现依赖于云端的 GPU 算力,为了优化端到端的用户体验,利用 RTC 的低延时特性可以显著提升全链路 AI 应用的效果的核心能力,尤其是在需要快速响应的应用场景中。网易云信 RTC 自研了低延时传输协议和全链路智能 QoS 传输算法,依托 WE-CAN 全球智能路由网络,最终实现了极致的端到端 300ms 延时。

为了实现实时的语音和视频交互,丰富易用的云端媒体处理 Pipeline 也是非常核心的能力。网易云信的云端 MPS(Media Process Server)服务将传输、解码、处理(包括AI处理)、编码、转推等全链路都做标准 Pipeline,并且各个模块都是可插拔的,能够非常好地将各类 AI 处理嵌入到音视频流的获取和生成流程中。

6f85cbc27ba5e23efb6d95f6ec88a9eb.png

MPS AI 处理 Pipeline 示意图

AI 是一柄锋利的双刃剑,在带来体验革新的同时,并存着诸多的技术应用风险。聚焦到音频生成、视频生成以及实时通话、直播等场景,比较突出的问题在于版权问题、隐私安全、伦理道德等方面,此外视频换脸、语音模拟、不当使用造成的个人隐私泄露、身份欺诈、虚假和有害信息传播等风险,也在 AI 加持下被显著放大。

在这方面,网易云信联合网易易盾推出一站式安全检测方案——安全通,为 IM、RTC 和直播点播提供完备的 AIGC 内容安全解决方案。同时提供声音伪造、视频伪造检测等防御性识别能力,确保创作的内容不被用于有害或非法目的。

除此之外,目前云信已在网易内部内测基于大模型的一站式音视频解决方案,包括了多项云端 AI 能力,例如:AI 语音助手、实时字幕、实时摘要、通话高光时刻总结等等,很快我们将对外开放这些能力。当然,除了基于网易自研的云端 AI 能力,我们也在研发与各大模型厂商构建方便易用的 AI Agent 通用架构,并基于此帮助企业快速构建低延时、高清的 AI 音视频产品应用。

f773d65020aa8cb7907ac5f22127a749.png

云信 AI Agent 示意图

关于我们

e49c38cc328dfdb6139b4013dfadc77f.png

outside_default.png

   干货资料 免费领取   

outside_default.png

【扫描二维码】即可免费领取!

87dc917604a484503473222267736aa0.png

fda2b9a782df01ebccd7d3c058a32f6b.png

ab27537cf338753a0c8e45e018493100.png

17facd9bfe690977445e74603e696b94.png

58885bc3eb729145142382bb5601cd2e.png

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值