声纹技术(六):声纹技术的其他应用

6.1 声纹的力量

前面几章介绍的声纹识别与声纹分割聚类都属于声纹技术在音频信号处理中的最直接的应用。而除了这些直接应用,由于声纹本身包含着与说话人身份相关的信息,其在其他领域也能发挥出重要作用。

声纹信息在其他领域中发挥作用有很多种方式,其中一种比较经典的架构便是通过声纹嵌入码,将特定说话人的身份信息,作为该领域传统模型的辅助输入,融合到模型的训练过程中,如图6.1 所示。该架构中的辅助音频,来自该任务所对应的具体说话人。而基于从该辅助音频中提取的声纹嵌入码,能够让传统模型更精准地针对该说话人完成相应的任务。这里的声纹编码器可以采用第3 章介绍过的各种模型,不过现在一般都采用基于神经网络的声纹编码器。而架构中的输入与输出可以有很多种形式,既可以是音频,也可以是时频谱、文字、类别或其他信息,具体依应用而异。

图6.1 将声纹信息用于辅助其他领域模型的经典架构

6.2 用于语音识别

6.2.1 语音识别技术概述

5.5.7 节介绍声纹分割聚类与语音识别的联合训练时,简单介绍了一些关于语音识别的概念。语音识别本身可以算是音频信号处理领域下最庞大、最重要的一门学科。由于本书主要以介绍声纹技术及相关应用为重点,不可能单独对语音识别技术进行详尽的介绍。为了更好地描述将声纹信息应用于语音识别领域的方法,我们还是简略介绍一下语音识别中的一些常

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值