《读论文系列多模态语音分离》

最新推荐文章于 2024-07-19 16:50:04 发布

沐花月

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量145

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/134436214

版权

摘要

本研究利用目标说话人的空间位置、语音特征和嘴唇运动等所有可用信息，提出了一种通用的多模态目标语分离框架。

提出了一种基于注意因子的多模态高级语义信息融合方法.首先将混合音频分解为一组声学子空间，然后利用来自其他模态的目标信息，利用可学习的注意力方案增强这些子空间声学嵌入。

1 介绍

现状：纯语音分离大多数监督方法基于频谱图掩蔽，估计目标说话人在混合频谱图的每个时频(T-F) bin处的权重(掩码)。混合频谱图与预测掩模之间的乘积作为目标语音频谱图。

加入视觉的多模态语音分离，视觉信息能够提供额外的言语和说话人相关线索。提高了实验效果，原因在于：

1)视觉信息(如嘴唇运动、面部嵌入)通常不受声环境的影响;

2)实验证明，视觉信息能够提供额外的言语和说话人相关线索。

本文：

1)我们引入了一个多模态目标语分离框架，充分利用了目标语信息，包括方向信息、嘴唇运动和语音特征。

2)在此框架下，研究并提出了几种目标语音分离任务的多模态融合方法;

3)实验证明了该框架对模态缺失或噪声干扰的鲁棒性

2 相关工作

纯音频语音分离：大多数基于频谱图掩蔽，可以与定向特征、对应的方向特征、说话人的先验知识（说话人嵌入）、干扰说话人的说话人嵌入关联。

视听目标语分离：Gabbay等人探讨了说话人的嘴唇运动与语音谱图之间的关系，并提出了一种视频转声音的方法。纯视觉驱动

设计了一个视听框架，其中嘴唇运动作为视觉信息。这两种方法在具有一致视频和音频输入的现实世界样本和未见过的语言中泛化得很好。

3 方法

3.1总览

在这项工作中，我们通过利用目标说话人的方向、嘴唇运动和说话人嵌入的目标信息，解决了从多通道语音混合中分离目标说话人的任务。

虽然视觉信息不受复杂声环境的影响，但缺乏对说话人面部的视觉访问(例如，转弯和障碍物)可能会导致潜在目标缺失。

输入：

(i)有噪声的多通道混合波形，

(ii)通过人脸检测计算的目标说话人的方向，

(iii)唇区裁剪的视频帧，

(iv)目标说话人的注册音频。系统直接输出估计的单音目标语音，同时抑制所有其他干扰信号

3.2音频流

将将多通道混合波形映射为复杂谱图，提取单通道频谱特征和多通道空间特征和提取的目标说话者的空间特征连接，放进一个由堆叠的膨胀卷积层组成的音频块，再通过iSTFT将估计的目标扬声器复杂频谱图转换为波形

1）频谱特征

使用标准STFT模块进行频谱分析，STFT将信号转换为复域，该复域可以分解为幅度分量和相位分量。多通道复谱图Y为:

2）空间特征

标准IPD由复谱图通道间相位差计算为:

IPD提取混合物中所有说话人的空间信息，我们称之为与说话人无关的空间特征。

3）方向特征

给定目标说话人的方向，提取目标相关的方向特征，提供明确的目标信息。我们使用人脸检测方法来识别和跟踪视频中的目标说话人，并根据摄像机位置估计其方向。

3.3视频流

唇读网络的输入既可以是唇区裁剪后的图像序列[10]，也可以是目标说话人的面部嵌入[9]。该网络由一个时空卷积层和一个18层的ResNet[39]组成，以捕捉唇运动的时空动态。以捕捉唇运动的时空动态。

3.4说话人嵌入

说话人嵌入是一种将目标信息告知分离网络并实现目标说话人分离的偏置信号。4个卷积层，然后是一个全连接层。

3.5多模态融合

从一组媒体源中获得三种目标信息，包括来自多通道语音的声学嵌入、来自视频的唇形嵌入和来自目标说话人注册话语的说话人嵌入。

已有的融合方法：

1)串联:集成多模态嵌入的最常见方法是简单地沿着特征轴将它们串联起来。

2）因子注意:在最近的语音识别工作中，为了快速适应声学环境，提出了一个因子层。

我们建议将声学嵌入分解为一组声学子空间(例如，电话，子空间，说话人子空间)，并利用来自其他模态的信息选择性地对它们进行聚合。

3）基于规则的注意:将多模式与注意融合的动机在于有效性和有效性，当说话人之间的角度差较小时，应用于空间和方向特征的权重分数相对较低，计算公式为:

4）为降低学习难度，三模式融合采用分层融合策略。

在每个阶段可以采用不同的融合方法。

例如，首先使用分解注意方法将声学和扬声器嵌入融合在一起。然后，将融合的ASE连接到唇形嵌入中，并组合成三模态嵌入

3.6端到端训练

4 实验

5 结论

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《读论文系列多模态语音分离》

本研究利用目标说话人的空间位置、语音特征和嘴唇运动等所有可用信息，提出了一种通用的多模态目标语分离框架。提出了一种基于注意因子的多模态高级语义信息融合方法.首先将混合音频分解为一组声学子空间，然后利用来自其他模态的目标信息，利用可学习的注意力方案增强这些子空间声学嵌入。现状：纯语音分离大多数监督方法基于频谱图掩蔽，估计目标说话人在混合频谱图的每个时频(T-F) bin处的权重(掩码)。混合频谱图与预测掩模之间的乘积作为目标语音频谱图。
复制链接

扫一扫

沐花月 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

141万+: 周排名

22万+: 总排名

2927: 访问

: 等级

203: 积分

4: 粉丝

11: 获赞

11: 评论

12: 收藏

私信

关注

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
努力搬砖的猴: 能复现吗？
《tensorflow 学习》
CSDN-Ada助手: 恭喜您写完了第16篇博客《tensorflow 学习》！您的持续创作精神令人钦佩。从您的博客标题来看，我猜测您已经对TensorFlow有一定的了解了。接下来，我希望您能够深入探索TensorFlow的更多应用领域，比如深度学习模型的训练与优化、图像识别、自然语言处理等等。当然，这只是一个建议，您可以根据自己的兴趣和需求进行选择。期待您的下一篇博客，谦虚的态度将会让您的创作更加出色！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。