最近,在饭团“AI产品经理大本营”里,有团员提问:如何制定针对自然语言语音交互系统的评价体系?有没有通用的标准?例如在车载环境中,站在用户角度,从客观,主观角度的评价指标?
上周,我在专属微信群内抛出了这个问题,当晚,@胡含、@我偏笑、@艳龙 等朋友就分享了不少干货心得;最近几天,在@飞艳 同学的协助整理下,我又补充了一些信息,最终形成这篇文章,以飨大家。
本文,具体介绍了下面5大方面的行业实战评价指标:
一、语音识别
二、自然语言处理
三、语音合成
四、对话系统
五、整体用户数据指标
1
语音识别ASR
语音识别(Automatic Speech Recognition),一般简称ASR,是将声音转化为文字的过程,相当于人类的耳朵。
1、识别率
看纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调状态等),还有在线/离线识别的区别。
实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”
定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。
公式为:
Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目
3点说明
1)WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。
2)因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。
3)站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SE<