DPCL2016 - 论文笔记

最新推荐文章于 2021-06-11 20:54:02 发布

民工渣渣辉

最新推荐文章于 2021-06-11 20:54:02 发布

阅读量463

点赞数

分类专栏：语音Speech 文章标签：语音识别机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FonFon27/article/details/114441641

版权

语音Speech 专栏收录该内容

14 篇文章 7 订阅

订阅专栏

【论文】

Deep Clustering: Discriminative Embedding for Segmentation and Separation

ICASSP 2016

John R. Hershey et al @ MERL

【资料】

https://www.merl.com/demos/deep-clustering 官网

https://paperswithcode.com/paper/deep-clustering-discriminative-embeddings-for paperwithcode

【总结】

---描述1---

输入信号：

输入信号的声谱： $X_{t,f} = g_{t,f}(x)$

声谱图上的某个T-F bin(元素i对应某个(t,f)坐标)：

D维embedding(待估量)： $V = f_{\theta}(x) \in \mathbb R^{N \times D}$ ， $\theta$ 指代生成embedding的模型(在此之上只需简单聚类既能实现分离，在本方法中，是一个DNN，并且是整个信号的全局函数)，指代划分数目。在此考虑一个unit-norm embedding，即 $|v_i|^2=1, v_i = \left \{ v_{i,d} \right \}$ ，其中 $v_{i,d}$ 指的是元素i的embedding上的第d个维度的值， v_i 则是其集合。

亲和矩阵估计(estimated affinity matrix)：embedding 隐式表示一个NxN的亲和矩阵估计 VV^T

目标划分： $Y=\left\{ y_{i,c}\right\}$ ，指的是将元素i划分到cluster C，故

当元素i属于cluster C： $y_{i,c} = 1$

由此得到二值亲和矩阵(binary affinity matrix)： YY^T

当i和j输入同一个cluster： $(YY^T)_{i,j} =1$
当i和j输入不同cluster： $(YY^T)_{i,j} =0$

---end---

---描述2---

在信号上计算embeddings： $V=f_{\theta}(X)$ ，对行 $v_i \in \mathbb R^D$ 做聚类。

最小化Kmeans的cost： $\overline{Y} = argmin_Y K_V(Y) = argmin_Y ||V-FM||_F^2$ ， $M=(Y^TY)^{-1}Y^TV$ 是每个cluster的CxD平均(值?)。

真实标注(用理想二值掩膜IBM，得到最好的SNR)： $\mathring{Y}$

得到的划分 $\overline{Y}$ 作为二值掩膜来做源分离。

---end---

民工渣渣辉

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
DPCL2016 - 论文笔记

【论文】Deep Clustering: Discriminative Embedding for Segmentation and SeparationICASSP 2016John R. Hershey et al @ MERL【资料】https://www.merl.com/demos/deep-clustering官网【总结】
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。