
《目标语音分离》文本引导目标说话人提取
融合层:在这里,我们遵循一种简单的连接方法来融合音频和文本线索,我们通过两个线性投影层将文本线索和音频线索嵌入转换为相同的维度,然后直接将它们连接起来形成多模态表示.本文:提出LLM- TSE的模型,(LLM)从用户输入的文本中提取有用的语义线索。1.使用文本作为转录片段 LLMTSE模型可以利用可区分的声音线索,以转录片段的形式,促进说话人提取,超越当前TSE模型的能力。在编码阶段,使用三个不同的编码器将预注册的语音、文本提示和输入音频混合转换成相应的嵌入。处理流程:编码--->融合------>提取。























