在深度学习的路上,从头开始了解一下各项技术。本人是DL小白,连续记录我自己看的一些东西,大家可以互相交流。
一、前言
目前UBM-MAP-GMM是一种说话人确认技术的标准系统,在JFA模型下,我们可以把生成式模型扩展成为具有说话人部分(本征音空间矩阵V)和信道部分(本征信道空间矩阵U)这两个联合模型。但是,在JFA的实际使用中,我们发现说话人部分和信道部分没办法完美分离,还会存在一定的干扰。受到JFA理论的启发,Dehak提出了从GMM均值超矢量中提取一个更紧凑的矢量,称为I-Vector。即为Identity-Vector。
二、I-Vector模型概述
在JFA模型中,我们建模过程主要基于:本征音空间矩阵V定义的说话人空间和本征音信道空间矩阵U定义的信道空间。
在I-Vector模型中,我们采用全局差异空间(Total Variability Space,T),即包含了话者之间的差异又包含了信道之间的差异。所以I-Vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。
给定说话人s的一段语音h,这一新的说话人及信道相关的GMM均值超矢量定义为如下公式:
其中,mu是说话人与信道独立的均值超矢量,即为UBM的均值超矢量,形状为(CP, 1);
T是全局空间矩阵,形状为(CP, Rw);
Ws,h 是全局差异因子,形状为(Rw, 1);
其中,Rw表