asr语音转写_【AI模型测试】语音转文字ASR的测试方法学习

最新推荐文章于 2025-04-13 18:01:36 发布

weixin_39979948

最新推荐文章于 2025-04-13 18:01:36 发布

阅读量1k

点赞数

文章标签： asr语音转写

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39979948/article/details/111835112

版权

本文介绍了ASR语音转写的测试方法，包括评估指标WER（词错率）和SER（句错率），以及测试点如语音输入条件、识别内容和耗时。重点讲解了如何计算WER和SER以衡量识别准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近这几天有相关的语音转文字的测试，主要是针对几个供应商提供的接口，然后对识别结果进行校对和评估，来确认哪个供应商提供的品质和性价比等更好。

然后自学了下语音转文字的一些测试方法，记录下来，方便使用。

一、语音识别(ASR)评估指标

在测试语音识别的过程中，衡量识别内容的准确性，一般通过如下指标进行评估

WER(Word Error Rate,词错率)

定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER

WER=(S+D+I)/N

S:substitution,替换

D:Deletion,删除

I:Insertion,插入

N:标准词序列中词的总个数

(S+D+I)=识别出来的词序列与标准的词序列之间的编辑距离

注意：因为有插入词(Insertion)，所以可能会出现WER>1的情况，不过，WER>1时，表明识别出来的词序列和标准的词序列相差很大，识别效果特别差

SER(Sentence Error Rate,句错率)

定义：句子中如果有一个词识别错误，那么这个句子被认为识别错误，句子识别错误的个数，除以总的句子个数即为SER

SER=SE/N

SE:识别出来的序列中，识别错误的句子个数(即WER!=0的句子个数)

N:标准序列中总句子个数

二、语音识别(ASR)思路

(1)、语音识别的测试点主要包括如下几点：

i.输入测试语音

(中间过程：语音识别模块接收到测试语音，执行语音转文字操作，并将识别文字输出)

ii.验证识别文字内容的准确性

iii.语音识别耗时

(2)、测试语音的输入，主要包括以下几个方面：

①语音输入离拾音设备的距离：近距离、远距离

②拾音设备：移动端(安卓、IOS)原生麦克风、PC端原生麦克风、日常用耳机麦克风、专业设备麦克风(罗技等)

③语音输入与拾音设备的相对位置：正对拾音口，背对拾音口

④语音输入的环境：办公环境、会议室环境

⑤语音输入时的语速：正常语速、语速较快、语速较慢、时快时慢、断断续续

⑥语音输入时的音量：正常音量、音量较大、音量较小，时大时小

⑦语音输入时的音色：男声、女声

⑧语音输入的音频类型：自然人声、录音、广播、变声等

(3)、测试识别内容，主要包括以下几个方面：

①支持识别的语种：普通话、英文、方言等

②支持的应用场景：日常对话、尽职调查、娱乐访谈等

③支持的对话模式：单人对话，多人对话，同一时间只有一个人说话，同一时间多人一起说话

④覆盖的词库内容：根据应用场景，是否包含了应用场景(比如金融、娱乐领域)对应的词库训练

(4)、验证识别内容的准确性

统计识别文字的WER、SER指标

(5)、关注语音识别耗时

①短语音的识别耗时

②长语音的识别耗时

三、WER、SER指标的计算

①计算识别的词序列与标准的词序列之间的编辑距离

②计算WER

③计算SER

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。