随着车载智能硬件的联网普及,越来越多的车辆配装了语音识别功能。目前,在车载系统最重要的功能莫过于车载语音了,个人接触车载语音功能多年,在这里想给大家分享一下从语音服务集成方的角度,如何从零规划设计车载语音的功能,欢迎大家一起交流讨论。
首先需要注明的是应用软件功能,因为语音功能还涉及到嵌入式软件、硬件设计和参数标定等问题,这些都不在本文做介绍。文中概述信息可能存在时效性问题,以文章发布时间为准,欢迎指出错误之处。
概述——国内车载语音市场的同质化
车载市场语音技术方案公司主要有:科大讯飞、Nuance、百度、思必驰、云知声等等。由于腾讯的语音服务在车载领域推广范围和力度均较小,因此腾讯的语音服务在服务和质量上比市场上的主流方案商要差一些,后续不排除发力的可能。阿里的语音服务主要应用在AliOS,目前主要量产在荣威车型上。
主流的方案商都会提供以下几项服务:
- 语音识别能力——注:乘用车,车速低于80KM/H,在密闭空间内的识别率都可以保持在95%以上
- 语音合成能力——注:TTS播报的高拟人化体验是比较考验研发投入情况的,各家的实际体验效果差别较大
- 方言口语理解——注:高鲁棒性是关键,否则语音功能就是鸡肋
- 语义识别——注:在线服务整合,各家的资源服务整合能力基本相同,稍有差异
- 多轮对话——注:个别厂家支持特定场景多轮对话,实话说目前的体验都不是很好
市场竞争激烈,迄今为止没有一条很明确的商业模式,大家都是处于资本投入的阶段。每家功能都在逐渐趋同,也在从纯