语音识别(ASR)
语音识别ASR
AI大道理
这个作者很懒,什么都没留下…
展开
-
AI大语音(十四)——区分性训练 (深度解析)
本文来自公众号“AI大道理”声学模型的训练一般是基于极大似然准则(ML),然而ML只考虑正确路径的优化训练,没有考虑降低其他路径的分数,因此识别效果不佳。区分性训练目标是提高正确路径得分的同时降低其他路径的得分,加大这些路径间的差异,因此识别效果更好。1 互信息区分性训练的其中一个常用准则叫MMI准则,即最大化互信息准则。那么什么是互信息呢?我们先来看看互信息的根源。源头:信息量:一个事件发生的概率越大,则它所携带的信息量就越小,而当p(x)=1时,熵将等于0,也就..原创 2020-11-26 14:52:00 · 1308 阅读 · 1 评论 -
AI大语音(十三)——DNN-HMM (深度解析)
本文来自公众号“AI大道理”GMM-HMM建模能力有限,无法准确的表征语音内部复杂的结构,所以识别率低。随着深度学习的崛起,研究人员将其逐步应用于语音识别中。最开始便是DNN代替了GMM来进行观察状态概率的输出,实现DNN-HMM声学模型框架,大大提高了识别率。1 GMM-HMM与DNN-HMM对比DNN-HMM用DNN替换了GMM来对输入语音信号的观察概率进行建模。GMM对HMM中的后验概率的估计需要数据发布假设,同一帧元素之间需要相互独立,因此GMM-HMM使用的特征是..原创 2020-11-23 22:43:56 · 3726 阅读 · 0 评论 -
AI大语音(十二)——WFST解码器(下)(深度解析)
本文来自公众号“AI大道理”。把HMM、语言模型N-gram、发音词典、上下文相关转化成WFST,再进行合成得到一个巨大的WFST。对这个巨大的WFST进行确定化、权重移动、最小化等优化,得到一个浓缩的包含各种约束的网络。语音识别就变成在一个WFST的搜索问题了,使用Viterbi的集束搜索得到最优路径,即识别结果。1 WFST的源头源头:1)有限状态接收器FSA(Finite State Acceptor)FSA弧上有“输入”信息,随着状态的不断转移,可以判断能否...原创 2020-11-19 23:17:44 · 1164 阅读 · 0 评论 -
AI大语音(十一)——WFST解码器(上)(深度解析)
点击上方“AI大道理”,选择“置顶”公众号为了让识别出来的语音符合常规语言表达,引入了语言模型作为约束。为了加速解码识别效率又引入了WFST解码机制。解码本质:解码就是在网络中寻找最优路径。解码方式多种多样,各有优缺点。(注:on-the-fly Rescoring 归为动态解码有待商榷)1 基于Viterbi的原始动态解码无HCLG、一次解码基于Viterbi的动态解码是最基础的解码。线性词典:动态解码网络仅仅把词典编译为状态网络,构成搜索空间。编译的...原创 2020-11-17 23:32:50 · 2114 阅读 · 2 评论 -
AI大语音(十)——N-gram语言模型(深度解析)
上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达的句子。1 语言模型真面目定义:对于语言序列词ω1,ω2,ω3,...,ωn,语言模型就是计算该词序列的概率,即P(ω1,ω2,ω3,...,ωn..原创 2020-10-14 16:19:30 · 5457 阅读 · 0 评论 -
AI大语音(九)——基于GMM-HMM的连续语音识别系统(深度解析)
上一专题GMM-HMM声学模型中讲述了其理论知识,这一章利用理论搭建一套GMM-HMM系统,来识别连续0123456789的英文语音。本系统是单音素,未涉及后面三音子的训练以及决策树的内容。在GMM专题和HMM专题中分别讲述了其训练都是EM算法,那么融合形成GMM-HMM模型后会如何训练?是应用一个EM算法还是分别应用EM算法呢?1 Viterbi解码在HMM专题中,HMM解码有两种方法,分别为Viterbi算法和近似算法,本系统采用Viterbi算法进行解码。针对...原创 2020-10-04 16:48:54 · 3053 阅读 · 1 评论 -
AI大语音(八)——GMM-HMM声学模型(深度解析)
基于GMM的0-9孤立词识别系统以词为训练单位,添加新词汇需要重新进行训练,若要涵盖所以词,差不多6万个词,训练量极大,预测时也要计算6万个模型的似然,哪个大预测出哪个,在实际应用中有局限性,只能应用于小词汇量场合。孤立词识别系统识别了0-9的数字的英文单词,但是假如有人用英文报电话号码,是识别不了整个号码的,甚至识别不了其中的one。孤立词识别这个模型无法从一连串英文号码(里面包含了one two等多个数字)中准确识别出one,关键点在于连续语音中不知道哪些语音信号是one,哪些是two,或者说不原创 2020-09-24 14:39:04 · 7370 阅读 · 0 评论 -
AI大语音(七)——基于GMM的0-9语音识别系统(深度解析)
1 系统概要孤立词识别:语音中只包含一个单词的英文识别识别对象:0-9以及o的英文语音训练数据:330句话,每个字符30句话,11个字符测试数据:110句话,每个字符10句话,11个字符模型:混合高斯模型(GMM),k=5个分量环境:window、Pycharm、python3.5、utils、numpy、scipy目标:单个字符的识别准确率大于97%流程:2 训练数据准备本系统所用的数据为0-9(其中0的标签为Z(Zero))和o这11个字符的...原创 2020-08-27 16:13:44 · 2301 阅读 · 1 评论 -
AI大语音(六)——混合高斯模型(GMM)(深度解析)
1 GMM基础高斯混合模型(GMM)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。灵魂的拷问:为什么GMM可以拟合出任意类型的分布?AI大语音:不仅GMM可以,只要性质不太奇怪的混合模型一般都能近似任意分布。这个思想和泰勒展开、傅里叶变换是类似的,任何波形都可以用正弦波叠加表示,而且频率还是基频的整数倍。利用高斯混合模型进行聚类,本质上可以这么理解:数据的分布由若干高斯分布组合而成,需要通过传入的无标记.原创 2020-08-25 17:41:15 · 8489 阅读 · 0 评论 -
AI大语音(五)——隐马尔科夫模型(HMM)(深度解析)
1HMM基础一模型、两假设、三问题1)一个模型随机过程:是依赖于参数的一组随机变量的全体,参数通常是时间。随机变量是随机现象的数量表现,其取值随着偶然因素的影响而改变。例如,某商店在从时间t0到时间tK这段时间内接待顾客的人数,就是依赖于时间t的一组随机变量,即随机过程。马尔科夫过程:随机过程的一类,系统下一时刻的状态仅与单前状态有关。隐马尔科夫模型(HMM):用来描述一个含有未知参数的马尔科夫过程。隐马尔可夫模型是关于时间序列的概率模型,描述由一个隐藏的马尔可夫链随机生成不可.原创 2020-08-20 01:11:16 · 2957 阅读 · 0 评论 -
AI大语音(四)——MFCC特征提取(深度解析)
点击上方“AI大道理”,选择“置顶”公众号——————1 特征提取流程在语音识别和话者识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。MFCC提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。2 快速傅里叶变换快速傅里叶变换即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。FFT不是Fas...原创 2020-08-12 22:47:31 · 5559 阅读 · 0 评论 -
AI大语音(三)—傅里叶变换家族(深度解析)
1 特征提取流程在语音识别和话者识别方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。MFCC提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。2 傅里叶家族快速傅里叶变换即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。傅里叶的两个论点:1 周期信号都可以表示成谐波关系的正弦信号的加权和。 2 非周期信号都可以用正原创 2020-08-12 17:13:45 · 1379 阅读 · 0 评论 -
AI大语音(二)——语音预处理(深度解析)
1 预滤波CODEC(所谓Codec,就是编码-解码器“Coder-Decoder”的缩写。说得通俗一点,对于音频就是A/D和D/A转换。)前端带宽为300-3400Hz(语音能量主要集中在250~4500Hz)。的抗混叠滤波器。工程测量中采样频率不可能无限高也不需要无限高,因为一般只关心一定频率范围内的信号成份。为解决频率混叠,在对模拟信号进行离散化采集前,采用低通滤波器滤除高于1/2采样频率的频率成份。实际仪器设计中,这个低通滤波器的截止频率(fc) 为: 截止频率(fc)= 采样频率(f原创 2020-08-11 21:43:13 · 2749 阅读 · 0 评论 -
AI大语音(一)——语音识别基础(深度解析)
1 语音识别基础1.1 声音特性声音是由物体振动产生的声波。是通过介质传播并能被人或动物听觉器官所感知的波动现象。最初发出振动的物体叫声源。声音以波的形式振动传播。声音是声波通过任何介质传播形成的运动。频率:是每秒经过一给定点的声波数量,它的测量单位为赫兹,1千赫或1000赫表示每秒经过一给定点的声波有1000个周期,1兆赫就是每秒钟有1,000,000个周期,等等。音节:就是听觉能够自然察觉到的最小语音单位,音节有声母、韵母、声调三部分组成。一个汉字的读音就是一个音节,一个英文单词可能有一原创 2020-08-09 16:59:07 · 7657 阅读 · 0 评论