AI产品经理需要了解的语音交互评价指标

最近,在饭团“AI产品经理大本营”里,有团员提问:如何制定针对自然语言语音交互系统的评价体系?有没有通用的标准?例如在车载环境中,站在用户角度,从客观,主观角度的评价指标?


上周,我在专属微信群内抛出了这个问题,当晚,@胡含、@我偏笑、@艳龙 等朋友就分享了不少干货心得;最近几天,在@飞艳 同学的协助整理下,我又补充了一些信息,最终形成这篇文章,以飨大家。


本文,具体介绍了下面5大方面的行业实战评价指标:

一、语音识别

二、自然语言处理

三、语音合成

四、对话系统

五、整体用户数据指标


1


语音识别ASR

语音识别(Automatic Speech Recognition),一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。


1、识别率

纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调状态等),还有在线/离线识别的区别。


实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”


定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。


公式为:

  • Substitution——替换

  • Deletion——删除

  • Insertion——插入

  • N——单词数目


3点说明

1)WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。

2)因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。

3)站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向SE<

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值