10月26日,第四届Kaldi线下交流会在北京·小米科技园举行。
李稀敏博士在以“人机语音交互是否必须要先唤醒和离线语音技术在本地端上的实现是否未来的趋势”为题的圆桌讨论。与猎户星空&Kaldi群主吴本谷、小米智能科技的语音负责人王育军、知存科技CEO王绍迪共同探讨了人机语音交互前沿趋势。
以下为李稀敏博士的精彩分享:
01.人机交互必须要先唤醒吗?
语音交互流程被划分为五个环节 – 唤醒、响应、输入、理解、反馈。其中唤醒是每一次用户与语音产品交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,它的体验好坏将直接影响用户对产品的“第一印象”。就目前市面上常见的语音交互产品来说,一个眼神或者一个动作还不能引起它的注意,因此需要定义一个将产品从待机状态切换到工作状态的词语,即所谓的“唤醒词”。比如“小度小度”“若琪”“叮咚叮咚”。那么,人机交互我们必须要先唤醒吗?
李稀敏认为:随着技术场景越来越成熟,当机器具备足够的智能化,机器是可以不需要唤醒词,就像跟人对话一样自然。但距离无唤醒交互的实现,还有一段路要走。
从声纹识别的角度来看有两种场景,第一种,用唤醒词作为命令词,设备在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令,即唤醒词),让处于