语音识别热词_TICA 2019 小爱同学语音识别评测

阿里QA导读:小米AI智能音响小爱同学,大家都听说过吧?你可以对它说“小爱同学,播放周杰伦的晴天,小爱同学,我要吃麦当劳”,那小爱同学是经历了怎样的测试才与大家见面的呢?

d44c42feb7172fb61231e059e518fe3b.png

大家好,我是董沐,今天很高兴来到IoT&线下智能专场来聊一下我们的工作。我来自小米人工智能智能部的小爱同学团队,是一位研发同学,主要是做一些工程效率平台的开发以及语音算法的评测,今天我主要从语音识别的点来展开聊我们具体是怎么做评测的。今天的内容主要是讲语音识别这块,语音识别也简称为ASR,为了简便之后我就叫ASR。我的分享包括以下三部分:第一部分,ASR是什么;第二部分,ASR模型评测;第三部分,全流程的ASR质量保证。

Part1 ASR是什么

在开始之前,我认为有必要认识一下小爱同学。

小爱同学是一个机器人,可以搭载在音响、电视、手环以及各种各样的设备上,小爱同学搭载的一个最奇葩的产品是马桶盖。小爱同学上有各种各样的技能,可以让它发微信、播放音乐等等。我昨天从北京过来的时候,就问小爱同学,明天要去杭州需要穿秋裤吗,小爱同学说你穿上吧,杭州明天挺冷的,我今天确实穿上了秋裤,确实好冷。

a1de55dd047b24f10b75ffa9f663f9bb.png

我们可以看到,小爱同学其实是有和用户做这样的语音类型的交互。那么,我们会比较好奇这里面究竟发生了什么事情?我们看一下整个交互的过程,最开始是唤醒,唤醒是发生在本地,不是发生在服务端的,用户说了“小爱同学”,小爱同学和用户说“我在”,后面的三个模型分别:一是ASR(语音识别),二是NLP(自然语音处理),三是TTS(语音播报)。以上是整个和小爱同学交互的过程。

我今天就专门讲一下语音识别的评测过程,其实刚才已经看到了,用户可以和小爱同学说任何的话,它的输入是无线的,那么,我们怎样实现无线输入的功能呢?

b32537d44108e57fdac6b05c5000b125.png

我们一般会借助人工智能模型,我们来看一下模型的训练过程,首先要准备一些训练的数据,组成迅速集,去把这些模型经过一些训练得到一些输出。这个输出和标注做一些对比,看看误差值是多少,然后反复调整参数,得到一个我们足够满意的误差值,这样的模型就训练完成了,训练完成的模型就可以处理它没有见过的一些新数据了。实际上,训练过程比这个复杂的多,但是今天不是讲怎么去训练模型,只是想通过这个过程发现几个点:第一点,要知道模型处理的一些输入的数据全是在它的训练过程中没有见过的数据。第二点,我们训练的过程中是非常复杂的,没有办法通过检查一些模型内部的流程,我们找不到这样的东西,没有办法通过一些简单的逻辑对它进行

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值