全双工语音交互

林林宋

已于 2024-12-05 19:14:31 修改

阅读量721

点赞数 7

文章标签：人工智能

于 2024-09-05 19:51:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40168949/article/details/141891615

版权

文章目录

微软小冰全双工
字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)
mini-omni
LLama-Omni
GLM-Voice

微软小冰全双工

在这里插入图片描述

全双工的定义：一路持续的听，upload audio；一路持续的输出，download audio；
涉及对输入音频的理解，包括语义理解，场景处理【是否多人对话，是在和机器人对话还是接听电话，混响降噪等】，节奏控制【比如有多段回复在进程池中，需要控制下一句回复什么，是否有的句子不需要回复，是否有的需要提高优先级，以及是否打断用户，哪个时间点回复】

字节大模型语音交互Language Model Can Listen While Speaking

在这里插入图片描述

speaking的同时，将此时的输入采集进来一起送给AR mdoel; w2v模型，将采集的音频转成token；
尝试了几种特征融合的方式，发现pre-fusion最有效果；

mini-omni

在这里插入图片描述

同时预测speech & text，batch delay pattern的方式进行推理，如图上所示的方式进行speech-text 的对齐；
speech，audio 拼接之后送给LLM，audio token 单独送到后边做语音合成；

LLama-Omni

arxiv
speech2text+LLM+后挂的NAR TTS

GLM-Voice

GLM-4-Voice 由三个部分组成：
● GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练，将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。
● GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成，降低端到端对话延迟。
● GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐，从而能够理解和生成离散化的语音 token。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。