滴滴出行场景中语音识别模型的自学习平台化实践

滴滴技术

于 2020-11-05 18:17:19 发布

阅读量5.1k

点赞数 4

文章标签：大数据编程语言人工智能 java 深度学习

本文链接：https://blog.csdn.net/DiDi_Tech/article/details/109523664

版权

桔妹导读：车联网时代，由于驾驶舱环境中视觉与触觉都受到高度约束，语音交互成为了车载场景下最自然的交互方式。通过车机/手机的语音助手，车主只需要说说话就可以完成车辆控制、信息查询、导航娱乐等功能，减少了在驾驶过程中的分神现象，提升了车辆行驶的安全性。在滴滴也有丰富的语音交互场景落地，为了更快更稳定地输出语音识别模型，提高业务识别准确率，我们开发了语音识别模型自学习平台，通过平台，一方面非专业人员也可以轻松参与业务专属模型的自助优化，另一方面可以实现业务数据回流，达到模型闭环迭代和自主学习的目的。

业务背景

‍‍‍‍

随着数据量增加、计算能力增强以及深度学习理论技术的发展，语音识别准确率不断提升，应用领域不断拓宽。在滴滴，语音识别的应用有交互式的，如搭载在车机/手机上的语音助手，通过语音识别把用户的语音转换为机器能够理解的文字，使得机器执行对应任务并给予反馈，实现一种自然的人机交流。在一些国家，由于法律法规禁止在驾驶过程中操作手机，语音甚至成为车载场景中驾驶员与手机交互的唯一一种方式。此外还有非交互式的应用，例如通过行程录音保障司乘安全，以及在客服质检、智能外呼等领域上的应用。

以交互产品为例，语音识别的准确率基本可以达到95%的字准水平。但是这并不能满足日新月异的业务需求。尤其是对于细分领域新增的专有词汇，如英文词、地名、专业用语，如果不针对性的调优模型，任何一家厂商的语音识别模型都难以满足业务要求。由于业务的优化周期一般可达几周甚至几月，多条业务线时间存在交叠，偶尔也会出现紧急需求，完全依靠有限的语音工程师处理，并不能及时响应，影响业务推进和用户体验。

于是我们开发了语音识别模型自学习平台来缓解这个问题。语音识别简单来说分为声学模型，语言模型，解码器和发音词典。声学模型重建音素级别的内容；语言模型表征词间关系；解码器将声学模型、语言模型和发音词典结合到一张加权有向图上，输出音频对应的最高分数的词（字）序列。我们可以通过语音识别自学习平台对声学模型和语言模型进行优化，它具有以下优势：

由于项目经理、业务方、合作伙伴以及用户往往会第一时间拿到需要识别支持的query，比如说定制车的信息、城市的道路信息，于是我们开发了良好的平台交互界面，即非语音相关的技术人员，只需要通过平台输入词级别、句子级别甚至篇章级别的业务文本信息，就可以自动触发模型训练、模型测试、模型发布、在线服务构建的流程，对业务专属模型进行自助优化。完成这些只需要几分钟的时间且无需重启识别服务，就可以实现大部分业务词汇的识别效果提升。
由于深度学习模型需要与业务场景符合的大量数据进行训练才能更好地提升整体效果，业务落地之后，我们就可以逐步合规地收集这些真实场景数据。对线上数据全部进行人工标注价格不菲。我们可以通过平台添加任务周期性地回流线上数据，简单说就是筛选识别结果高置信的音频/文本加入模型训练，达到模型自动更新、闭环迭代的效果。
部署方便，可支持数据隔离要求较高的私有化部署。

平台架构