游戏语音趋势解析,社交互动有助于营造沉浸式体验

语音交互的新架构出现

2024 年标志着对话语音 AI 取得了突破,出现了结合 STT → LLM → TTS 模型来聆听、推理和回应对话的协同语音系统。

OpenAI 的 ChatGPT 语音模式将语音转语音技术变成了现实,引入了基于音频和文本信息进行端到端预训练的模型,这些模型除了文本标记外,还能原生理解和生成音频。虽然 OpenAI 通过其Realtime API实现的可能还不是完全端到端的,正如其演示中处理中断的挑战所证明的那样,但它代表着朝着使用单一统一模型进行语音交互迈出了重要的一步。

语音 AI API 不断发展,实现企业级自然对话

2024 年,现代语音代理架构的三个核心组件的改进使语音 AI 能够用自然对话取代僵化的“按 1 转英语”电话树。

  • 语音转文本 (STT):转录质量已经足够强大,可以使其成为设计音频原生应用程序的标准工具。然而,领域特定术语和远场转录等问题仍然具有挑战性。2022 年,OpenAI 的Whisper凭借其开源模型奠定了基础,该模型在令人印象深刻的 680,000 小时多语言音频数据上进行了训练。Deepgram的 Nova-2 模型此后提高了标准,将单词错误率 (WER) 降低了 30%,并为 2024 年的商业应用设定了新的基准。

  • 大型语言模型 (LLM):2024 年GPT-4o、Llama 3.2、Claude 3.5 Sonnet和Gemini 2.0的发布标志着推理和效率的大幅提升。LLM 成本从 GPT-4 的 45 美元/百万大幅下降到Together AI上运行的 Llama 3.1 70B 的 2.75 美元/百万代币。语音模型现在支持输入流,允许音频在从 LLM 接收输入时实时生成,同时保持语音片段之间的一致韵律。

  • 文本转语音 (TTS):TTS 模型已达到生产级成熟度,在处理复杂内容(例如首字母缩略词和数字表达式)时,延迟更低、自然度更高、准确度更高。领先的 TTS 引擎已将合成声音从机器人般的声音转变为真正像人类一样的语音。这一进步得益于神经网络架构(SSM、Transformers、扩散模型)的创新、训练数据质量和多样性的进步以及音频编解码器的优化——这对于高效编码和解码用于流式传输或存储的数字音频至关重要。

    如果说传统的游戏语音讲究的是保障玩家稳定的交流体验,解决影响体验的常见问题,那么,网易云信提供的游戏语音则更进一步,其核心在于通过个性化服务和持续的技术革新,以尽可能低的成本,助力游戏厂商为游戏玩家提供更易用、更高质、更安全开放且多样化玩法的沉浸式语音环境

    图片

    通过持续打通语音技术和生态通路,为游戏开发者赋能。在提升玩家沉浸式语音体验方面,提供范围语音、空间音效等创新玩法,针对打机环境的瞬时噪音和手机功放时的远端回声问题,推出了云信自研的 3A 算法,包括 AI 降噪AI 回声消除等能力,确保玩家享受到高品质的游戏体验。

    另外,云信与 Wwise 引擎的深度融合则进一步优化游戏语音表现。针对游戏语音领域的多样化新趋势,通过对语音需求的深入需求,并将云信的即时通讯(IM)功能中的部分核心能力集成到了游戏语音,以增强游戏语音社交体验。

想要了解详情戳我戳我!或✉LTT936

语音 AI 也不再局限于最初专注于专业消费者和语音原生初创公司,而是开始满足企业需求。语音 AI 系统必须从根本上重新设计,以满足严格的实时交互标准,这些标准超过了传统异步应用程序的标准。由于实时对话无法编辑或重新生成,因此基础设施必须提供有保证的正常运行时间、完美的并发呼叫处理和不折不扣的可靠性。为了服务传统企业,升级了他们的平台,提供可定制的 SLA、峰值流量的动态扩展、强大的安全认证以及针对高度监管行业的自托管选项。这些功能在早期的语音 AI 产品中很少见,但随着技术的成熟,它们已成为标准。(该内容节选自公号,侵权删)

未来,无论游戏语音领域的需求和玩法如何演变,我们都将持续助力游戏厂商和独立开发者,满足更多创新玩法需求,并为玩家打造更加沉浸和震撼的音效体验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值