speaker vector

最新推荐文章于 2021-08-01 16:00:33 发布

林林宋

最新推荐文章于 2021-08-01 16:00:33 发布

阅读量348

点赞数

分类专栏：语音预处理深度学习基础知识

本文链接：https://blog.csdn.net/qq_40168949/article/details/90033971

版权

31 篇文章 2 订阅

订阅专栏

13 篇文章 4 订阅

订阅专栏

ivector包含了说话者和声道的信息，每一帧提取出若干维特征，然后做长度归一化，再通过LDA/PLDA消除声道信息，只保留说话者信息。
关于LDA和PLDA的算法描述
LDA：线性分类器–基本原理是将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点，会形成按类别区分，一簇一簇的情况，相同类别的点，将会在投影后的空间中更接近。

论文中说的是xvector会比ivector需要更少的数据量，但是通过知乎一些回答似乎不是这样。
面对更少数据量的问题，
xvector通过多类别的交叉熵对多个speaker进行分类，UBM是无监督的聚类，随着数据量的增多，就需要不停的调整聚类中心，开销会变大。

google d-vector[2]的出现，它虽然简单，但是有重要意义，因为这算是一个纯dnn 框架下的说话人识别系统

18年的文章很多提到了embedding，fixed-dimension, low-dimension， embeddings 优点很多，便于存储，容易打分，还容易当做其他任务的输入进行训练。那么什么样的embedding是好的呢？
-----small within-class variance, large between-class distance

参考：https://zhuanlan.zhihu.com/p/34440000
声纹识别的一个专业人士写的帖子