《目标语音分离》文本引导目标说话人提取

最新推荐文章于 2024-08-07 21:56:36 发布

沐花月

最新推荐文章于 2024-08-07 21:56:36 发布

阅读量215

点赞数

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/134654045

版权

TEXTGUIDED TARGET SPEAKER EXTRACTION

摘要

目标说话人提取(TSE)：利用目标说话者的预注册线索来提取感兴趣的声源。

本文：提出LLM- TSE的模型，(LLM)从用户输入的文本中提取有用的语义线索。这些线索可以作为独立的提取线索、任务选择器来控制TSE过程或补充预先注册的线索。

1 介绍

BSS技术通常采用dnn来估计每个说话者的听觉掩模。然后利用掩模将每个说话者的声音从麦克风捕获的混合语音中分离成单独的流。

将文本描述作为额外的线索来增强现有TSE模型的可行性、可控性和性能。大型语言模型(llm)的强大功能，从用户输入的文本中提取有意义的语义线索。

2.文本引导目标说话人提取

应用场景

1.使用文本作为转录片段 LLMTSE模型可以利用可区分的声音线索，以转录片段的形式，促进说话人提取，超越当前TSE模型的能力。

2.使用文本作为语义描述:控制目标说话人的提取过程，这些知觉线索可以被认为是独立的预注册线索。

3.使用文本作为任务选择器:能够灵活地决定是否从音频混合中保留或排除预注册扬声器

4.使用文本来补充预先注册的提示

3 模型

处理流程：编码--->融合------>提取

在编码阶段，使用三个不同的编码器将预注册的语音、文本提示和输入音频混合转换成相应的嵌入。

注册语音和文本线索的融合嵌入，提取器然后有选择地从输入音频混合中提取所需的声源。最后，将提取器得到的频域特征表示转换回时域，作为提取的语音输出

混合编码器将输入的7音频混合从时域转换为特征表示：将每个长度为L的音频帧与一组N个1-D卷积滤波器进行卷积：

文本提示编码器：LLaMA-2 7B Chat LLM,

音频线索编码器:将可选的预注册语音编码成判别式的说话人嵌入。首先，时间卷积网络(TCN)块提取与说话人相关的特征表示，一维卷积滤波器将时域输入信号转换到频域。最后，我们沿着时间维度取平均值来生成一个说话人嵌入向量，该向量有效地捕获了预注册语音的独特声音属性，可以区分一个说话人与其他说话人。

融合层:在这里，我们遵循一种简单的连接方法来融合音频和文本线索，我们通过两个线性投影层将文本线索和音频线索嵌入转换为相同的维度，然后直接将它们连接起来形成多模态表示.

提取：通过Masknet对融合嵌入进行特征提取

损失函数：

4 实验评价

4.1重叠语音模拟

数据集：librisspeech，Multilingual librisspeech

4.2文本生成

1.文本作为独立提取提示:

2：文本作为任务选择器:文本可以作为系统提取给定说话者声音或将其从音频混合中删除的指令。

3.文本作为人类感知的补充:

4.3结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《目标语音分离》文本引导目标说话人提取

融合层:在这里，我们遵循一种简单的连接方法来融合音频和文本线索，我们通过两个线性投影层将文本线索和音频线索嵌入转换为相同的维度，然后直接将它们连接起来形成多模态表示.本文：提出LLM- TSE的模型，(LLM)从用户输入的文本中提取有用的语义线索。1.使用文本作为转录片段 LLMTSE模型可以利用可区分的声音线索，以转录片段的形式，促进说话人提取，超越当前TSE模型的能力。在编码阶段，使用三个不同的编码器将预注册的语音、文本提示和输入音频混合转换成相应的嵌入。处理流程：编码--->融合------>提取。
复制链接

扫一扫

博客等级

码龄3年

19
原创

11
点赞

12
收藏

4
粉丝

关注

私信

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
努力搬砖的猴: 能复现吗？
《tensorflow 学习》
CSDN-Ada助手: 恭喜您写完了第16篇博客《tensorflow 学习》！您的持续创作精神令人钦佩。从您的博客标题来看，我猜测您已经对TensorFlow有一定的了解了。接下来，我希望您能够深入探索TensorFlow的更多应用领域，比如深度学习模型的训练与优化、图像识别、自然语言处理等等。当然，这只是一个建议，您可以根据自己的兴趣和需求进行选择。期待您的下一篇博客，谦虚的态度将会让您的创作更加出色！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。