DPCL2016 - 论文笔记

【论文】

Deep Clustering: Discriminative Embedding for Segmentation and Separation

ICASSP 2016

John R. Hershey et al @ MERL

 

【资料】

https://www.merl.com/demos/deep-clustering 官网

https://paperswithcode.com/paper/deep-clustering-discriminative-embeddings-for paperwithcode

 

【总结】

---描述1---

输入信号:x

输入信号x的声谱:X_{t,f} = g_{t,f}(x)

声谱图上的某个T-F bin(元素i对应某个(t,f)坐标):Xi

D维embedding(待估量):V = f_{\theta}(x) \in \mathbb R^{N \times D}\theta指代生成embedding的模型(在此之上只需简单聚类既能实现分离,在本方法中,是一个DNN,并且是整个信号X的全局函数),N指代划分数目。在此考虑一个unit-norm embedding,即|v_i|^2=1, v_i = \left \{ v_{i,d} \right \},其中v_{i,d}指的是元素i的embedding上的第d个维度的值,v_i则是其集合。

亲和矩阵估计(estimated affinity matrix):embedding V隐式表示一个NxN的亲和矩阵估计VV^T

目标划分:Y=\left\{ y_{i,c}\right\},指的是将元素i划分到cluster C,故

  • 当元素i属于cluster C:y_{i,c} = 1

由此得到二值亲和矩阵(binary affinity matrix)YY^T

  • 当i和j输入同一个cluster:(YY^T)_{i,j} =1
  • 当i和j输入不同cluster:(YY^T)_{i,j} =0

---end---

---描述2---

在信号X上计算embeddings:V=f_{\theta}(X),对行v_i \in \mathbb R^D做聚类。

最小化Kmeans的cost:\overline{Y} = argmin_Y K_V(Y) = argmin_Y ||V-FM||_F^2M=(Y^TY)^{-1}Y^TV是每个cluster的CxD平均(值?)。

真实标注(用理想二值掩膜IBM,得到最好的SNR):\mathring{Y}

得到的划分\overline{Y}作为二值掩膜来做源分离。

---end---

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值