speaker vector

ivector
  • ivector包含了说话者和声道的信息,每一帧提取出若干维特征,然后做长度归一化,再通过LDA/PLDA消除声道信息,只保留说话者信息。

  • 关于LDA和PLDA的算法描述

  • LDA:线性分类器–基本原理是将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。
    在这里插入图片描述

xvector
  • 从stage顺序看:()打开voxceleb的v2中的run.sh脚本

  • 准备语料训练集以及测试集,可以是不同语言越多越好

  • 使用mfcc提取特征,尝试过替换Mel-filter bank特征效果并不好,主要也没有调节各种参数

  • 利用回响和三种噪音增强了训练数据,测试了增强于非增强的效果还是非常明显

  • 这部分对增强的数据进行了随机筛选于原始数据相同数量级的数据提取特征并于原始数据结合

  • 做了归一化移除了静音帧

  • 这里移除了小于min_len时长的语音段,也舍弃了小于min_num_utts段数音频的说话人信息

  • 生成egs并训练xvector网络

  • 利用embedding层提取xvector特征

  • lda降维然后再用plda打分

  • 计算eer

论文中说的是xvector会比ivector需要更少的数据量,但是通过知乎一些回答似乎不是这样。
面对更少数据量的问题,
xvector通过多类别的交叉熵对多个speaker进行分类,UBM是无监督的聚类,随着数据量的增多,就需要不停的调整聚类中心,开销会变大。

d-vector

google d-vector[2]的出现,它虽然简单,但是有重要意义,因为这算是一个纯dnn 框架下的说话人识别系统

embedding
  • 18年的文章很多提到了embedding,fixed-dimension, low-dimension, embeddings 优点很多,便于存储,容易打分,还容易当做其他任务的输入进行训练。那么什么样的embedding是好的呢?
    -----small within-class variance, large between-class distance

参考:https://zhuanlan.zhihu.com/p/34440000
声纹识别的一个专业人士写的帖子

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值