TEXTGUIDED TARGET SPEAKER EXTRACTION
摘要
目标说话人提取(TSE):利用目标说话者的预注册线索来提取感兴趣的声源。
本文:提出LLM- TSE的模型,(LLM)从用户输入的文本中提取有用的语义线索。这些线索可以作为独立的提取线索、任务选择器来控制TSE过程或补充预先注册的线索。
1 介绍
BSS技术通常采用dnn来估计每个说话者的听觉掩模。然后利用掩模将每个说话者的声音从麦克风捕获的混合语音中分离成单独的流。
将文本描述作为额外的线索来增强现有TSE模型的可行性、可控性和性能。大型语言模型(llm)的强大功能,从用户输入的文本中提取有意义的语义线索。
2.文本引导目标说话人提取
应用场景
1.使用文本作为转录片段 LLMTSE模型可以利用可区分的声音线索,以转录片段的形式,促进说话人提取,超越当前TSE模型的能力。
2.使用文本作为语义描述:控制目标说话人的提取过程,这些知觉线索可以被认为是独立的预注册线索。
3.使用文本作为任务选择器:能够灵活地决定是否从音频混合中保留或排除预注册扬声器
4.使用文本来补充预先注册的提示
3 模型
处理流程:编码--->融合------>提取
在编码阶段,使用三个不同的编码器将预注册的语音、文本提示和输入音频混合转换成相应的嵌入。
注册语音和文本线索的融合嵌入,提取器然后有选择地从输入音频混合中提取所需的声源。最后,将提取器得到的频域特征表示转换回时域,作为提取的语音输出
混合编码器将输入的7音频混合从时域转换为特征表示:将每个长度为L的音频帧与一组N个1-D卷积滤波器进行卷积:
文本提示编码器:LLaMA-2 7B Chat LLM,
音频线索编码器:将可选的预注册语音编码成判别式的说话人嵌入。首先,时间卷积网络(TCN)块提取与说话人相关的特征表示,一维卷积滤波器将时域输入信号转换到频域。最后,我们沿着时间维度取平均值来生成一个说话人嵌入向量,该向量有效地捕获了预注册语音的独特声音属性,可以区分一个说话人与其他说话人。
融合层:在这里,我们遵循一种简单的连接方法来融合音频和文本线索,我们通过两个线性投影层将文本线索和音频线索嵌入转换为相同的维度,然后直接将它们连接起来形成多模态表示.
提取:通过Masknet对融合嵌入进行特征提取
损失函数:
4 实验评价
4.1重叠语音模拟
数据集:librisspeech,Multilingual librisspeech
4.2文本生成
1.文本作为独立提取提示:
2:文本作为任务选择器:文本可以作为系统提取给定说话者声音或将其从音频混合中删除的指令。
3.文本作为人类感知的补充:
4.3结果