AI科普文章 | 语音识别准不准？—— ASR 效果评测原理与实践

最新推荐文章于 2025-04-13 18:01:36 发布

原创

最新推荐文章于 2025-04-13 18:01:36 发布

· 2.9k 阅读

·

1

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #人工智能 #腾讯云

本文介绍了语音识别技术中的关键指标——词错误率（WER）和字正确率，以及它们的计算原理。通过编辑距离算法，我们可以评估ASR服务的性能。此外，文章还提到了开源工具Sclite和腾讯云AI应用团队提供的AI Studio评测工具，帮助用户轻松评估业务场景下的ASR识别效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在日常工作、生活中，语音识别技术作为基础服务，越来越多的出现在我们周围，比如智能音箱、会议记录、字幕生成等等。

作为一项已经很成熟AI技术，市面上很多厂商都会提供语音识别服务，对外声称的识别准确性也很高。

对于业务侧的我们，其实更关心的是在我们特定业务场景中的表现如何。

本文将带着大家从原理到实践了解语音识别效果评测的方方面面。

语音识别，又称语音转录文本，是将语音识别成文本的技术。英文名称 Automatic Speech Recognition，通常缩写为 ASR（下文统一用 ASR 指代）。

显然，一个 ASR 服务的好坏，可以用语音识别出的文本准不准来衡量。

而这个准不准，业界通常会用一个指标来量化：字正确率（Word Correct，W.Corr），又称识别正确率。

要理解字正确率，我们首先要搞清另一个指标 WER。

一、指标原理

1.1 WER 公式

WER（Word Error Rate），即词错误率，是一项用于评价 ASR 效果的重要指标，用来衡量预测文本与标注文本之间的错误率。

因为英文语句中最小单位是词（Word），而中文最小单位是汉字（Character），因此在中文语音识别任务中，使用字错率（Character Error Rate， CER）来衡量 ASR 识别效果。

两者的计算方式相同，我们通常在中文领域，也会使用 WER 表示该指标。

WER 的计算公式如下

#Deletions：删除错误字符数

#Insertions：插入错误字符数

#Substitutions：替换错误字符数

#ReferenceWords：总字符数

1.2 三类错误

整体来看，公式分母是总的字符数，分子是三类错误字符数的加和，下面我们看下这三类错误的含义

为便于描述，约定如下

REF：语音对应的正确文本内容，又称标注文本，即 Reference

HYP：语音通过 ASR 服务识别出的文本，即 Hypothesis

删除错误

语音转录文本过程中，原文中本来包含的文字，ASR 没有识别出来。例子：

语音“你吃了吗”，识别成“你吃了”，其中的“吗”字没有识别出来。

插入错误

语音转录文本过程中，原文中未包含的文字，比如噪音什么的，被 ASR 误识别成文字了。例如：

语音“你吃了吗”，识别成“你吃了

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。