【论文阅读】Wavesplit:End-to-End Speech Separation by Speaker Clustering

Wavesplit:End-to-End Speech Separation by Speaker Clustering

表格总结

在这里插入图片描述


文章结构

Abstract

【模型任务】
①采用聚类的方法,对混合信号的各个源都进行基于全序列的特征表示;
②基于表示的特征信号,还原各个原信号;
③将特征表示与信号提取两个子任务模型进行联合训练

【模型优势】
①采用聚类的方法,可以有效避开permutation的问题;
②基于全序列的特征表示,可以让训练出来的算法更加具有鲁棒性;
③可以有效地迁移到其他信号分割的领域。

Intro

①分离信号源的分类

信号源不同类:对提前定义好类别的不同音乐器件的分类;对语音和非语音信号的分类;

信号源同类:对有重叠的语音信号进行分割;从电表中将家用电器用电量分离出来;对重叠的指纹信息进行分割等。

思想:需要设计一个模型,可以在ground-truth和预测信号之间保持一个统一的分布分配——这对于同类信号源分离至关重要。

②open speaker separation

该模型在训练阶段需要利用说话人的信息进行联合训练;
但是在测试阶段除了输入的mixture信号,不需要任何先验信息。

③语音的特征表示

  • 训练目标的本质鼓励网络学习每个说话者instantaneous representation,每个特征被聚类分组到某一特定说话者的clustering中;
  • 每个clustering的质心为恢复这个信号源提供了一个长期的说话者表示信息;
  • 这样的信号表征机制利用了信号的长时相关性,可以有效抑制重建信号过程中的source swap问题。

④工作总结

i. 训练时使用先验,测试时不适用
ii. 针对整个输入的信号对各个信号源进行信息整合
iii. 采用聚类对语音信号的特征进行表示和划分,以集合的形式进行输出避开了顺序性问题
iv. 在当前常用语音分离benchmark中产生SOTA结果
v. 对方法的优缺点进行分析
vi. 通过将这个模型用到母婴心率信号分离的问题中,证明其具有一定泛化性

Related Work

1. Deep Clustering Approaches

【中心思想】
为每个时频单元学习到一种潜在的特征空间表示,基于这些特征表示之间的距离对不同的时频单元进行聚类。

【Deep Attractor Networks】
在这里插入图片描述

【Wavesplit】

  • 依赖聚类操作去推断各个源的特征表示,但是这些潜在表示并不和频率单元相关联,也不会进行masking操作;
  • 它的特征表示被用于——①在训练阶段用于预测说话人身份;②为后续的分离卷积网络提供条件变量。

2. Permutation-Invariant Training

【PIT】

  • 通过将预测的各个信号源的组合与ground truth mask进行比对,err最小的那个组合被用于模型的训练;
  • 但这样的步骤并没有在预测的信号顺序和标签顺序之间建立本质联系;
  • PIT架构中bypass了相位信息

【Wavesplit】

  • 也是基于时域的分离方法,它会在信号估计这一步骤之前先对置换问题进行解决:再将信号的latent representation传递给分离网络进行训练之前,先要求各个信号的latent representation要和标签最好地匹配。

3. Discriminative Speaker Representation

【extract with enrollment】

  • speaker beam
  • speaker attention networks
  • speaker extraction networks

【open-set speaker separation】

  • 独立地训练一个speaker identification network
  • 使用PIT训练网络架构,可以同时考虑已有和未知的说话人

【Wavesplit】

  • 在test阶段不需要先验的说话人信息,但是需要对【说话人身份验证】-【信号源分离】这两个步骤联合训练和学习

4. Constrained Settings

讨论了信号分离的一些指标和场景:

  • reconstruction quality
  • efficiency for online separation
  • noisy environment

WaveSplit

1. problem Setting & Notations
在这里插入图片描述
2. Model Architecture
在这里插入图片描述

【数据流】
①传进来的混合信号按照T个时间step进行分割,对于每一个time step的语音信号,均针对N个源进行d维表示,因此对于每一个源都能得到RTXd维度的特征表示;
②每一个源在各个time step中的标签并不统一,例如针对源c1,在时间步t时表示成h1第一个特征向量,但是在时间步t’中有可能表示成h2第二个特征向量,这并不会引入额外的permutation问题;
③在聚类步骤中,根据向量之间的相似度衡量,会把属于某一特定源的所有特征表示汇聚在一起,并返回这一个clustering的质心表示。

【网络设计】
speaker stack:残差卷积
在这里插入图片描述
separation stack:依赖于FiLM的质心结果的残差计算块
在这里插入图片描述

3. Model Training Objective

“In split of a problem belonging to source separation, it uses the speaker identities to build an internal model of each source and improve long-term separation.”

【Speaker vector objective】
在这里插入图片描述

【Reconstruction objective】
Wavesplit不同于PIT,不需要在permutation空间进行搜索,因为cluster的质心总是和某一标签的说话人相对应。在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 油水分离的前沿技术包括: 1. 超声波技术:通过高频声波在油水混合物中产生微小空泡,使油和水分离。 2. 动力学分离技术:通过油水混合物的物理性质,如密度、流动性等差异,将油和水分离。 3. 光学分离技术:利用油和水在光学特性上的差异,如光吸收、折射率等,将油和水分离。 4. 膜技术:通过膜的选择性透过性,将油和水分离。 5. 化学吸附技术:通过合适的化学吸附剂,吸附油,使油和水分离。 这些技术具有不同的优缺点,根据实际应用情况,应选择合适的技术。 ### 回答2: 油水分离的前沿技术是指在处理含油废水时使用的最新科技和方法。由于油污水的治理一直是一个全球性的环境问题,因此研究人员一直在努力开发更有效的方法来分离油水,以减少对环境的污染。 一种前沿技术是利用纳米材料进行油水分离。纳米材料具有大比表面积和特殊的化学和物理性质,可以吸附或分解油污染物。这种技术通过将纳米材料应用于分离设备中,可以高效地分离油水混合物。纳米材料的使用还可以提高设备的储油容量和改善处理效率。 另一种前沿技术是利用膜分离技术进行油水分离。膜分离技术利用特殊的膜材料将油和水分离开来。这种技术相对传统的方法具有更高的分离效率和选择性。同时,膜分离技术还可以实现连续操作和减少处理成本。 此外,一种新兴的技术是利用电化学方法进行油水分离。该方法通过电场效应使油和水分离开来。这种技术具有高效、环保和可控性的优势,可以有效地处理不同种类的油污染物。 总之,油水分离的前沿技术为解决油污染问题提供了新的方法和可能性。这些技术在提高分离效率、降低处理成本和减少环境污染方面具有重要意义,对于推动可持续发展和保护环境具有重要作用。 ### 回答3: 油水分离的前沿技术是一种用于将油和水分离的先进技术。油水分离是一项重要的环境工程技术,用于处理由油污染引起的水体和废水。过去,常用的油水分离方法包括重力分离、漂浮、离心分离等,但这些方法存在一些局限性。 随着科技的进步,油水分离的前沿技术不断涌现。一个前沿技术是电化学油水分离法。该技术利用电解作用将水中的油脂离子化,然后利用电极的特殊性质将油脂吸附并分离出来。这种方法具有高效、节能、环保等优点,可以有效地从废水中分离出油脂。 另一个前沿技术是膜分离技术。膜分离技术利用特殊的薄膜材料,如聚合物膜、陶瓷膜等,通过渗透、过滤和离子交换等机制实现油水分离。这种技术具有高效、节能、可持续等特点,可以有效地去除水中的油污染物。 此外,纳米技术也被应用于油水分离的前沿技术中。纳米材料具有巨大的比表面积和特殊的物理化学性质,可以用于油水分离膜、吸附材料等的制备。通过纳米材料的使用,油水分离的效率和效果能够得到显著提高。 总之,油水分离的前沿技术不断涌现,为处理油污染带来了新的可能性。电化学油水分离、膜分离技术和纳米技术等都是重要的前沿技术,将为环境保护和资源开发提供有力支持。随着科学技术的发展,我们可以期待更多创新的油水分离技术的出现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值