GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION(说话人验证的广义端到端损失)
1.2 Tuple-Based End-to-End Loss
基于元组的端到端损失模拟了训练过程中,注册和评估的两个阶段。
以元组作为输入,元组是由J的单个话语和M的不同话语组成的。对于每一个输入的元组,都会计算它经LSTM的L2标准化响应。元组的质心,代表M个发音的声纹。
使用余弦相似度来评判。考虑对正元组和负元组的更新,这个损失函数与FaceNet中的三元组损失非常相似。
1.3 Overview
这种新的体系结构以更有效的方式从不同长度的输入序列中构造元组,显著提高了TD-SV和TI-SV的性能和训练速度。
2.1 Training Method
广义端到端训练是以一次性处理大量的话语为基础,以一批的形式包含了N个说话人,没个说话有M个话语。
一个批次由N*M组成(N个说话人,每个说话人M个话语&#