一文看懂“语音识别ASR” | AI产品经理需要了解的AI技术概念

原标题:一文看懂“语音识别ASR” | AI产品经理需要了解的AI技术概念

温馨提示:文末有【重大福利】:优惠券(金额很大) for 三节课《产品经理P2(进阶)系列课程》 & 《互联网业务数据分析实战》。

fa7d54465ed54b45ab64cbb60fa43948.jpeg

语音识别(Automatic Speech Recognition,简称ASR),是语音交互中最基础的一个AI技术环节,大家可以先在手机上体验siri等各种语音助手,或者各种智能音箱,找找感觉:)

本文,是我收集了很多线上/线下的相关信息后,提炼出的AI产品经理“最必要”了解的ASR技术知识和行业现状(多了没必要,少了又不足以入门、准备面试或工作实战);不仅帮大家节省了时间,更是过滤了很多无用信息和过于技术的内容。

目录

一、核心概念:语音识别ASR、远场语音识别(语音激活检测VAD、语音唤醒、麦克风阵列、全双工、纠错)

二、当前技术边界

三、瓶颈和机会

1

核心概念

1、语音识别(Automatic Speech Recognition),一般简称ASR;是将声音转化为文字的过程,相当于人类的耳朵。

1)语音识别原理流程:“输入——编码——解码——输出”

92547634872b4ca9b6cafd2dd9e98600.jpeg

语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。

注:更多编码、解码等技术细节,感兴趣的同学可看《CUI三部曲之语音识别——机器如何听懂你的话?》http://t.cn/RKn1wnU (需要长按链接,复制后再用浏览器打开)

语音识别的应用,就这么简单?不是的,在实际场景,有很多种异常情况,都会导致语音识别的效果大打折扣,比如距离太远了不行,发音不标准不行,环境嘈杂不行,想打断也不行,等等。所以,还需要有各种解决方案来配合。

2)语音识别的评价指标——识别率

看纯引擎的识别率,以及不同信噪比状态下的识别率(信噪比模拟不同车速、车窗、空调状态等),还有在线/离线识别的区别。

实际工作中,一般识别率的直接指标是“WER(词错误率,Word Error Rate)”

定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。

公式为:

acfa22a4762345e08e529799409a70c4.png

Substitution——替换

Deletion——删除

Insertion——插入

N——单词数目

3点说明

A)WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看。

B)因为有插入词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。

C)站在纯产品体验角度,很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”,即“识别(正确)率等于96%”这种,实际工作中,这个应该指向“SER(句错误率,Sentence Error Rate)”,即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中,一般句错误率是字错误率的2~3倍,所以可能就不怎么看了。

2、远场语音识别(Farfield Voice Recognition)

远场语音识别,简称远场识别,口语中可更简化为“远场”。下面主要说3个概念:语音激活检测、语音唤醒、以及麦克风阵列。

1)语音激活检测(voice active detection,VAD)

A)需求背景:在近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR)比较高,信号清晰,简单算法也能做到有效可靠。但远场识别场景下,用户不能用手接触设备,这时受噪声影响比较大,SNR较低,必须使用VAD了。

B)定义:判断什么时候有语音/什么时候没有语音(静音)。

后续的语音信号处理或是语音识别,都是通过“VAD 检测的语音起始点帧位置”截取出来的有效语音片段上进行的。

2)语音唤醒(keyword spotting,简称KWS;或voice trigger,VT)

A)需求背景:在近场识别时,用户可以点击按钮后直接说话,但是远场识别时,需要在VAD检测到人声之后,进行语音唤醒,相当于叫这个AI(机器人)的名字ÿ

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值