如上图,我们通过微信发送了一段语音,在对语音进行转文字时。语音识别引擎首先会将把这段语音进行分帧(切分成若干小段),然后利用声学模型将提取的每一帧的声学特征识别为一个个“状态”,多个状态会组合成一个音素(语音中的最小的单位),音素构成了诸多同音字,再利用 语言模型 从诸多同音字中挑选出可以使 语义完整的字(例如 不会把“吃饭”识别成“痴泛”),最后将文本展示出来。
语音识别(ASR) 过程
自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分。
此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来。
特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量。
声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分,而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率。
最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
其中大致过程梳理如下(为方便理解忽略部分严谨性):
预处理:
- 首尾端的静音切除,降低干扰,静音切除的操作一般称为VAD。
- 声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。
特征提取:主要算法有线性预测倒谱系数(LPCC)和Mel 倒谱系数(MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量。
声学模型(AM):通过对语音数据进行训练获得,输入是特征向量,输出为音素信息。
字典:字或者词与音素的对应, 简单来说, 中文就是拼音和汉字的对应,英文就是音标与单词的对应。
语言模型(LM):通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。
解码:就是通过声学模型,字典,语言模型对提取特征后的音频数据进行文字输出。
语音识别流程的示例(为方便理解忽略部分严谨性):

本文介绍了自动语音识别(ASR)的过程,包括预处理、特征提取、声学模型、语言模型和解码。重点讨论了ASR的评估指标,如句错误率(SER)、句正确率(S.Corr)、字错误率(WER/CER)、字准确率(W.Acc)和字正确率(W.Corr),并提供了各种情况下的计算示例。
最低0.47元/天 解锁文章
模型评估指标探索&spm=1001.2101.3001.5002&articleId=112123577&d=1&t=3&u=88640f31027f47a8bc353e394a0aee94)
1842

被折叠的 条评论
为什么被折叠?



