语音相似度_语音识别技术的前世今生(1) - 孤立词识别

本文介绍了ASR技术,重点讲述了孤立词识别的模板比较法,包括特征提取和DTW算法。接着,讨论了GMM在配合HMM模型中的作用,解释了GMM如何从模板到模型的转换。最后,概述了HMM在识别中的应用及其三大问题。
摘要由CSDN通过智能技术生成

开始接触ASR,先验知识太少。

计划看完这个live,每个章节课后做总结,整理个人理解思路和技术细节。

语音识别技术的前世今生​www.zhihu.com
7ad78409973d6db4be90f30315187cb4.png

1. ASR

3976f252130209e0338be0c7981175e1.png

2. 前世 - 孤立词识别

技术框架:

  • HMM:80年代开始到本世纪初主流模型
  • GMM:用于配合HMM模型

2.1 孤立词识别

孤立词识别是指语音中只包含一个词语的识别。

81437c5601f227a0bbc324d9fa543dd9.png

2.1.1 模板比较法

模板比较法的主要工作是:

  1. 特征提取
  2. 得分/距离计算
  • 特征提取
    • 精细结构:反映音高,峰之间的距离,基频,可以一定程度忽略。
    • 包络:反映音色,频谱的整体形状,共振峰,语音识别的主要信息。
    • 帧处理:每一帧转化为一个序列,帧之间有重叠,为了防止漏掉帧之间的转换信息。一般一帧取20-50ms,帧间隔10ms,1s的音频一般可以输出100帧。
    • 三角滤波:忽略精细结构,三角滤波的效果是计算每一个三角形里面的总幅度/能量。人耳对于低频比较敏感,所以三角滤波器低频段比较密集。输出之后就是Filterbank output(横轴是第n个三角形,这个转换40个)。
    • MFCC:三角滤波输出后,log + 离散余弦变换

faaf1a1f7f60d4ab6777c93e4c23093c.png

d55dc521d2b76ab18c23471865bd481b.png

6a53d3d4a6b40cddce7262e615c3478a.png

625f72274da2b18cd8c8ad9d5e63e461.png

e79321234f9ed84884daaa651292d267.png

1257a74ba052822072e52f012837e53e.png
  • DTW算法:Dynamic Time Warping,处理的是计算两个不同长度的序列的相似度的问题。经过特征提取后,一段语音变成时频序列长度为m,模板的长度为n,根据时间信息进行匹配。
    • DTW(Dynamic Time Warping)动态时间规整 - 知乎
    • How DTW (Dynamic Time Warping) algorithm works_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

d93e00d497fa1855f78ae94a6ace8d42.png

717934e492cb137f5b6373bc45b1faf7.png

ba760ff774f09c81dfd11feb8447afa4.png

6c79e218627d3fd6e4ac55c3402e5fec.png

2.2 GMM

  • 问题:一个词的读法有很多,所以需要多录几个样本,因此每个词都可能有多个模板。
  • 解决:
    • 最简单的做法就是直接跟同一个词汇的多个模板逐个匹配,最终加权平均后得出一个分数
    • 将多个模板压缩成一个模型,多个模板标准化后形成GMM模型

2.2.1 从模板到GMM

29be0adf54c17821fdfa271961858c3d.png
  1. 代表模板:选取代表性模板,定义当前词的状态(状态类比音素,图中将中间的模板作为代表模板,总共有5个状态)
  2. 组内对齐:将同一组的其他模板对齐至代表模板(DTW)。
  3. 状态分类:组内模板对齐后,不同状态下具有多个向量,把同一状态类的一个/多个向量划分为一组。
  4. 模型确定:分组完成后,每一组都用GMM拟合其分布。
  5. 向量距离:任意一个特征向量,对每一组都产生一个概率,概率作为距离的代替品用于评判相似度。

2.2.2 GMM基础识别

9cd307a05ba97d54c47844e0ddbf1035.png

未知语音的识别流程:

  1. 用DTW算法与模型对齐
  2. 对齐后,计算待识别语音中每个向量与对齐状态的概率密度
  3. 将每一帧的概率密度相乘,得到该音频在此模型的条件下的概率(帧之间独立性假设)
  4. 将待识别语音与多个不同模型(例如多个唤醒词)计算得分后,取最大的得分的结果作为最终输出结果

2.3 HMM

2.3.1 HMM和GMM的联合方式

5da0193b769497dde07b128694ad7ce0.png

95861ec2a6f5cbf736d9c4260e6d87b7.png

给定模型后的语音概率计算:

  • 条件:

语音和对齐关系

  • 步骤:
  1. 计算出每帧的GMM的概率
  2. 确定帧状态之间的转移概率
  3. 累乘之后确定最终概率

2.3.2 模型参数

确定一个HMM模型,需要有三个条件:

  1. 观测概率:当前状态下,产生出各个观测值的概率分布,所有观测状态的概率总和为1。
  2. 状态转移概率:HMM的隐状态在转移过程中的概率。
  3. 初始概率:确定HMM模型的第一个状态的概率。

在语音识别的场景下,HMM模型加入了限定条件:

  1. 模型是单向的,状态只能从左到右(音素状态)转变,观测序列(音频第一帧的特征)的首个状态必然是状态1,因此不需要初始概率(或者说初始概率向量是[1, 0, 0, ..., 0])
  2. 观测概率则是GMM的概率。可以这么理解,每个组的GMM模型,其产生的观测状态都是无限的(每一帧的音频特征中每一维都是实数),所以隐状态A(音素)下产生观测(帧向量)的概率,就是该帧属于GMM的概率密度

2.3.3 HMM在识别中的三大问题

e126096fee33aec850559f14792c3d42.png

众所周知,HMM的三大经典问题:

  1. 概率计算:模型参数已知,观测序列已知,求在该模型下,观测序列出现的概率 ——
  2. 序列预测:模型参数已知,观测序列已知,求在该模型下,最有可能产生观测序列的隐状态序列 ——
  3. 模型训练:给定一些观测序列和状态序列,求模型的参数。

2.4 识别方程

f93d8699bfe1e6f0588b35e26c1ab143.png

详解:

  1. :当前声学模型(
    GMM-HMM)中,给定输入语音X,输出是词W的概率。
  2. 是文本单词的先验,
    是给定词
    W输出音频是X的概率,可以由模型生成(HMM是生成式模型)。
  3. 给出最有可能的词
    W*
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值