现有客服机器人处理顺序,先通过ASR技术将语音转文本或直接使用客户端输入的文本得到客户输入的问题文本,再处理该文本。得到正确的文本是所有NLU处理的起点与基础。本文介绍的纠错主要是基于ASR系统转换之后的纠错。
语音系统中语音内容识别(ASR)的精准性,是影响智能语音产品发展的关键制约因素,用户query的文本,通常是由ASR系统将用户的语音命令转换而成,但由于技术上的原因,这些由ASR生成的文本可能包含错误,继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASR的query文本进行预处理纠错成了一个亟待解决的问题。
中文纠错主要是为了降低人工校验成本,提高语言的正确性,提高机器人的交互性能。本次分享,将介绍基于近年来在纠错问题上所进行的一些技术探索,以及在业务场景中的落地情况,主要内容包括:
常见错误类型
业界与学术界常用纠错方案与评估
未来改进的方向
一、常见错误类型:
谐音字词纠错,如 配副眼睛-配副眼镜
混淆音字词纠错,如 流浪织女-牛郎织女
字词顺序颠倒纠错,如 伍迪艾伦-艾伦伍迪
字词补全,如 爱有天意-假如爱有天意
形似字纠错,如 高梁-高粱
中文拼音推导,如 xingfu-幸福
中文拼音缩写推导,如 sz-深圳
语法错误,如 想象难以-难以想象
在本公司使用的垂直领域内,发现错点占比最高的还是谐音错误与发音不标准的错误。如若文本中出现大量错误,对上层NLP后期处理便是一项巨大的挑战,若进行纠错则会提高后期处理的压力。
二、业界与学术