AI科普文章 | 语音识别准不准?—— ASR 效果评测原理与实践

本文介绍了语音识别技术中的关键指标——词错误率(WER)和字正确率,以及它们的计算原理。通过编辑距离算法,我们可以评估ASR服务的性能。此外,文章还提到了开源工具Sclite和腾讯云AI应用团队提供的AI Studio评测工具,帮助用户轻松评估业务场景下的ASR识别效果。
摘要由CSDN通过智能技术生成

在日常工作、生活中,语音识别技术作为基础服务,越来越多的出现在我们周围,比如智能音箱、会议记录、字幕生成等等。

作为一项已经很成熟AI技术,市面上很多厂商都会提供语音识别服务,对外声称的识别准确性也很高。

对于业务侧的我们,其实更关心的是在我们特定业务场景中的表现如何。

本文将带着大家从原理到实践了解语音识别效果评测的方方面面。

语音识别,又称语音转录文本,是将语音识别成文本的技术。英文名称 Automatic Speech Recognition,通常缩写为 ASR(下文统一用 ASR 指代)。

显然,一个 ASR 服务的好坏,可以用语音识别出的文本准不准来衡量。

而这个准不准,业界通常会用一个指标来量化:字正确率(Word Correct,W.Corr),又称识别正确率。

要理解字正确率,我们首先要搞清另一个指标 WER。

一、指标原理

1.1 WER 公式

WER(Word Error Rate),即词错误率,是一项用于评价 ASR 效果的重要指标,用来衡量预测文本与标注文本之间的错误率。

因为英文语句中最小单位是词(Word),而中文最小单位是汉字(Character),因此在中文语音识别任务中,使用字错率(Character Error Rate, CER)来衡量 ASR 识别效果。

两者的计算方式相同,我们通常在中文领域,也会使用 WER 表示该指标。

WER 的计算公式如下

#Deletions:删除错误字符数

#Insertions:插入错误字符数

#Substitutions:替换错误字符数

#ReferenceWords:总字符数

 1.2 三类错误

整体来看,公式分母是总的字符数,分子是三类错误字符数的加和,下面我们看下这三类错误的含义

为便于描述,约定如下

REF:语音对应的正确文本内容,又称标注文本,即 Reference

HYP:语音通过 ASR 服务识别出的文本,即 Hypothesis

删除错误

语音转录文本过程中,原文中本来包含的文字,ASR 没有识别出来。例子:

语音“你吃了吗”,识别成“你吃了”,其中的“吗”字没有识别出来。

插入错误

语音转录文本过程中,原文中未包含的文字,比如噪音什么的,被 ASR 误识别成文字了。例如:

语音“你吃了吗”,识别成“你吃了

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值