全双工语音交互

微软小冰全双工

在这里插入图片描述
在这里插入图片描述

  • 全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;
  • 涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,是否有的需要提高优先级,以及是否打断用户,哪个时间点回复】

字节大模型语音交互Language Model Can Listen While Speaking

在这里插入图片描述

  • speaking的同时,将此时的输入采集进来一起送给AR mdoel; w2v模型,将采集的音频转成token;
  • 尝试了几种特征融合的方式,发现pre-fusion最有效果;
    在这里插入图片描述

mini-omni

在这里插入图片描述

  • 同时预测speech & text,batch delay pattern的方式进行推理,如图上所示的方式进行speech-text 的对齐;
  • speech,audio 拼接之后送给LLM,audio token 单独送到后边做语音合成;

LLama-Omni

  • arxiv
    在这里插入图片描述

  • speech2text+LLM+后挂的NAR TTS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值