全双工语音交互

微软小冰全双工

在这里插入图片描述
在这里插入图片描述

  • 全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;
  • 涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,是否有的需要提高优先级,以及是否打断用户,哪个时间点回复】

字节大模型语音交互Language Model Can Listen While Speaking

在这里插入图片描述

  • speaking的同时,将此时的输入采集进来一起送给AR mdoel; w2v模型,将采集的音频转成token;
  • 尝试了几种特征融合的方式,发现pre-fusion最有效果;
    在这里插入图片描述

mini-omni

在这里插入图片描述

  • 同时预测speech & text,batch delay pattern的方式进行推理,如图上所示的方式进行speech-text 的对齐;
  • speech,audio 拼接之后送给LLM,audio token 单独送到后边做语音合成;

LLama-Omni

  • arxiv
    在这里插入图片描述

  • speech2text+LLM+后挂的NAR TTS

GLM-Voice

GLM-4-Voice 由三个部分组成:
● GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。
● GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。
● GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值