2021年声纹识别研究与应用学术研讨会笔记
声纹识别是国务院认定的远程身份认证方法,在研究过程中要注意信息安全和法律法规的要求,声纹识别是一个比较热的研究方向,ICCASP有36篇和speaker verification有关的文章,其中有涉及多模态、spoofing、鲁棒性、domain adaptation等,未来的应用应该是场景驱动、融合创新的,有一些例如反欺诈需要声纹掩盖等针对技术。我们需要共同维护创新环境,良性发展、合作共赢,要找准赛道,避免恶意竞争(通过非常规手段,侵权压价等),需要建立良性市场生态,可以建立产学研用联盟进行声纹识别的良性发展。
Speaker Recognition and Characterization in Xi-Vector Embedding Space
关键词: speaker embedding
说话人识别一般流程有特征提取、Speaker Embedding和scoring几个过程,首先特征提取有获得特征序列,通过embedding获取等长特征向量,最后进行评分和分类。
同一个人的embedding space内是彼此接近的,因此可以进行简单的几何计算,例如Paris-France+England = London,Paris-France嵌入表示首都的概念。
X-Vector前面经过CNN特征提取后,进行均值和标准差的pooling,通过FC层输出分类概率,第一层FC的输出即为Embedding Vector。
I-Vector使用UBM模型指导GMM做特征映射,i-vector提取的是后验均值估计,组成了嵌入向量。
特征嵌入从supervector到generative embedding再到discriminative embedding,分类器从SVM、JFA到PLDA。
X-Vector的优点是利用了深度模型,数据量大和判别学习,缺点是对非确定因素的建模和处理不强。I-Vector的优点是对非确定因素的建模和处理能力强,但是采用UBM和T矩阵是一个较浅层的模型,随训练数据的增长,性能很快饱和。所以这里提出了Xi / z a i / /zai/ /zai/-Vector结合了X-Vector和i-vector嵌入的优点。
第一个要点是非确定性估计,在encoder中加入uncertainty估计值, Xi-Vector有Encorer、Temporal Aggregation和Decoder三个部分,Encoder包含两层神经网络和两个生成部分,一个是特征,一个是非确定性的估计,输出通过高斯后验概率估计后经过两层FC层输出分类概率,第一层FC输出为Xi-Vector Embedding。实验表明预测结果更加准确,Xi-Vector将生成模型和判别模型进行结合,达到了更加好的效果。具有开源代码。
*说话人分割聚类研究进展与展望
关键词: 图卷积神经网络、聚类
说话人分割聚类:给定一个包含多人交替说话的声音,系统需要判断每个时间段是谁在说话。有很多供使用的竞赛数据集,研究趋势从简单场景到复杂场景, 挑战有噪声干扰、人数未知、语音重叠等等,如何适应新的场景也是一个迫切需要改进的方向。
系统包含分割和聚类两个部分,VAD可以做分割,VAD后进行合并和切片,将语音片段转换为聚类问题。
第一步需要提取嵌入表征向量,之前的方法有AHC聚类可以进行层次聚类,还有SC(谱聚类)、VB\VBx聚类、UIS-RNN(中国餐馆方式)、DNC(神经网络直接进行分类),另外需要进行重叠语音检测。
端到端系统从EEND到TS-VAD等等,聚类算法总结如下:
系统对比,CALLHOME数据集中,TDNN+AHC+VB效果最好,DIHARD III数据集中,Cosine相似矩阵和NME-SC的结果最好,重聚类中加入VBx,加入重叠检测很重要。VoxSRC21比赛,包含背景音、笑声杂音等等,提出wav2vec VAD做ASR模型,重叠检测通过VAD第一次分配说话人,OSD第二次分配说话人。提出的单系统已知最优。XMUSPEECH融合系统,实验经验是:
防止过拟合,合理设计子系统。
系统存在一些问题,仅依赖于embedding之间的相似度,没有考虑时序关系或者结构信息,可以利用前后时间关系从无监督打分变为有监督打分,后端采用谱聚类,采用图神经网络得到新的embedding,考虑了节点之间的连接关系。
普通卷积神经网络只是从平面结构合并,没考虑节点之间的关系,图卷积网络不仅考虑了节点特征,还有节点之间的关系,多了归一化邻接矩阵。 两种改进:第一种是考虑自己的特征,每个节点增加自链接,第二个是进行归一化,使得每一行和为1。