【论文】
Deep Clustering: Discriminative Embedding for Segmentation and Separation
ICASSP 2016
John R. Hershey et al @ MERL
【资料】
https://www.merl.com/demos/deep-clustering 官网
https://paperswithcode.com/paper/deep-clustering-discriminative-embeddings-for paperwithcode
【总结】
---描述1---
输入信号:
输入信号的声谱:
声谱图上的某个T-F bin(元素i对应某个(t,f)坐标):
D维embedding(待估量):,
指代生成embedding的模型(在此之上只需简单聚类既能实现分离,在本方法中,是一个DNN,并且是整个信号
的全局函数),
指代划分数目。在此考虑一个unit-norm embedding,即
,其中
指的是元素i的embedding上的第d个维度的值,
则是其集合。
亲和矩阵估计(estimated affinity matrix):embedding 隐式表示一个
NxN的亲和矩阵估计
目标划分:,指的是将元素i划分到cluster C,故
- 当元素i属于cluster C:
由此得到二值亲和矩阵(binary affinity matrix):
- 当i和j输入同一个cluster:
- 当i和j输入不同cluster:
---end---
---描述2---
在信号上计算embeddings:
,对行
做聚类。
最小化Kmeans的cost:,
是每个cluster的CxD平均(值?)。
真实标注(用理想二值掩膜IBM,得到最好的SNR):
得到的划分作为二值掩膜来做源分离。
---end---