在日常工作、生活中,语音识别技术作为基础服务,越来越多的出现在我们周围,比如智能音箱、会议记录、字幕生成等等。
作为一项已经很成熟AI技术,市面上很多厂商都会提供语音识别服务,对外声称的识别准确性也很高。
对于业务侧的我们,其实更关心的是在我们特定业务场景中的表现如何。
本文将带着大家从原理到实践了解语音识别效果评测的方方面面。
语音识别,又称语音转录文本,是将语音识别成文本的技术。英文名称 Automatic Speech Recognition,通常缩写为 ASR(下文统一用 ASR 指代)。
显然,一个 ASR 服务的好坏,可以用语音识别出的文本准不准来衡量。
而这个准不准,业界通常会用一个指标来量化:字正确率(Word Correct,W.Corr),又称识别正确率。
要理解字正确率,我们首先要搞清另一个指标 WER。
一、指标原理
1.1 WER 公式
WER(Word Error Rate),即词错误率,是一项用于评价 ASR 效果的重要指标,用来衡量预测文本与标注文本之间的错误率。
因为英文语句中最小单位是词(Word),而中文最小单位是汉字(Character),因此在中文语音识别任务中,使用字错率(Character Error Rate, CER)来衡量 ASR 识别效果。
两者的计算方式相同,我们通常在中文领域,也会使用 WER 表示该指标。
WER 的计算公式如下
#Deletions:删除错误字符数
#Insertions:插入错误字符数
#Substitutions:替换错误字符数
#ReferenceWords:总字符数
1.2 三类错误
整体来看,公式分母是总的字符数,分子是三类错误字符数的加和,下面我们看下这三类错误的含义
为便于描述,约定如下
REF:语音对应的正确文本内容,又称标注文本,即 Reference
HYP:语音通过 ASR 服务识别出的文本,即 Hypothesis
删除错误
语音转录文本过程中,原文中本来包含的文字,ASR 没有识别出来。例子:
语音“你吃了吗”,识别成“你吃了”,其中的“吗”字没有识别出来。
插入错误
语音转录文本过程中,原文中未包含的文字,比如噪音什么的,被 ASR 误识别成文字了。例如:
语音“你吃了吗”,识别成“你吃了