今天正式开始研究基于深度学习的声纹识别。之前看过一点kaldi的关于声纹识别的代码,基本还是基于i-vector的,不得不说这是比较传统的,过时的方法。现在深度学习在声纹确认/识别上的优势比较明显。
GE2E Speaker Verification是Google的开源项目。
它的loss函数与之前的模型有些不同,利用区分训练方法,而且一批数据包含多个比较数据,提高了训练效率。
在此之前的Triple loss训练中,有一个Anchor数据,和一系列的正例、反例,目的是调整参数使得正例与Ground Truth更接近。
在GE2E方式中,一次输入多个说话人的多个语音,构成相似矩阵。