顶会论文笔记:Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation

摘要

       在本文中,解决了使用视听神经处理从视频中分离单个语音信号的问题。大多数传统方法利用逐帧匹配标准来提取同时出现的音频和视频之间的共享信息。因此,它们的性能在很大程度上取决于视听同步的准确性及其表示的有效性。为了克服由于传输延迟不匹配或抖动导致的两种模态之间的帧不连续性问题,我们提出了一种跨模态亲和网络(CaffNet),它可以学习音频和视频流之间的全局对应关系以及局部变化的亲和力。鉴于全局术语在话语级别提供了时间序列上的稳定性,这解决了以不一致分配为特征的标签排序问题。通过在复杂网络上扩展所提出的跨模态亲和性,我们进一步提高了在复杂光谱域中的分离性能。实验结果表明,本文提出的方法在各种数据集上都优于传统方法,在实际场景中显示了它们的优势。

一、动机和创新点Motivation & Innovation

动机:在现实场景中,音频和视频是从不同的设备按照各自的规格录制,它们通过独立的通信信道传输,并使用不同的编解码器协议保存。这些在实际问题经常导致谈话视频中的状态不一致(非对齐)。当视频流中出现抖动、遗漏和不同步导致的细微数据转换时,传统的局部匹配策略很容易受到攻击。此问题可能会损害视听语音分离系统在可视电、广播、视频会议或拍摄中的性能

创新点:在本文中,强调了动机中的局限,并解决了视听语音分离系统中的对齐问题:

(1)提出了一种新的用于鲁棒语音分离的跨模态亲和网络,称为CaffNet,它利用视觉线索并考虑相对定时信息;

(2)提出了一个亲和性正则模块,该模块将亲和性矩阵的对象项平铺,以在话语级别匹配视听序列。亲和力正则化提供了全局位置约束,它避免了由于语音信号随时间不一致地分配给视觉目标而产生的标签置换问题;

(3)考虑幅度掩模和相位掩模的估计是合理语音重建的关键之一,因为这些因素是相互关联的,为了实现这一点,对CaffNet进行了扩展,使其具有复值卷积网络结构,从而通过同时恢复幅度谱和相位谱的掩码来提高语音质量

二、方法Methodology

1、模型包括视听编码、学习跨模态亲和力和软掩码设计。

2、CaffNet的关键思想是学习音频和视频流之间的跨模态亲和力,即使它们在野外环境中具有不同的采样率。

3、掩码解码器采用变换后的视觉特征和相应的音频特征来生成软掩码,该软掩码过滤混合频谱图以生成增强频谱图。

三、结果Results

当视频流和音频流对齐时,与基线相比,该方法具有竞争力的性能。

四、应用Application

视听系统

五、未来展望Future Development

未来的一个方向是探索这种通用框架的应用,它可以广泛地插入到许多视听系统中。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值