智能音箱技术概览

智能音箱技术概览

转载自:https://blog.csdn.net/jackytintin/article/details/62040823

【嵌牛导读】生活中经常可以看到小米音箱、天猫精灵,在体验科技带来便利的同时,也有人会好奇它是如何实现的。

【嵌牛鼻子】智能语音的交互技术;硬件的实现。

【嵌牛提问】语音控制的交互技术是如何实现的?我们常看到的音箱内部是如何设计的?

【嵌牛正文】

引言

目前的智能音箱多基于语音控制,其基本交互流程可以用图1 概括:

1)用户通过自然语言向音箱提出服务请求或问题 

2)音箱拾取用户声音(音箱本地完成)并分析(一般在服务器端完成)

3)音箱通过语言播报(音箱端)和 APP 推送(关联的手机等)对用户的请求进行反馈。

图一 智能音箱的基本交互方式

智能音箱可以以自然的方式(自然语言),为用户提供一些常用的服务,未来还可能成为为家庭的控制中枢。

从用户的角度,可直观感知硬件和功能(图2)。其中,智能音箱的功能关系到产品设计和用户体验, 直接关系到产品的成败,我们会在产品分析的文章中进行深入分析。本文对智能音箱的硬件及运行在硬件之上,作为音箱“大脑”的系列算法进行简要介绍,希望读者能对智能音箱有更全面的了解。

图二  智能音箱硬件组成和功能示意


1. 硬件

图3展示了 Echo 拆解后的部件。可以看到,智能音箱的硬件并不算复杂(相对于无人驾驶等“重型”AI 产品)。但正如下面我们会反复强调的,智能音箱的各个模块都需要结合生产工艺、算法设计、产品体验等多个方面进行细致的打磨,才能达到比较满足的效果,而这其中做出需要多“痛苦的”折衷。

图3. Amazon Echo 拆解图

1.1 外观设计

智能音箱想要成为常驻案头的“家庭成员”,其形态必然是经过精心设计,在形状、大小、灯效甚至重量等因素要充分考虑在内。图 4 展示了一些智能音箱,读者可根据自己的审美,判断下哪些是想要或不想要放在家里的。

图4. 音箱ID设计(按阅读顺序依次为:Amazon Echo、Google Home、叮咚、若琪、若琪月石、联想音箱)  

ID 设计除了出于美学和交互设计的考虑外,还要和音腔设计(影响音效)、麦列方案(影响语音交互)等相互耦合,需要通盘考虑。

1.2 扬声器

智能音箱本质上还是一款音箱,因此,提供用户认可的音质是产品存在的前提。但是智能音箱在扬声器的选择上,除了受到音箱尺寸限制,还要考虑麦列的拾间及后续的信号处理。

图5. Echo 扬声器及音腔设计

图6. 若琪扬声器及音腔设计

图5和图6分别展示了 Echo 和若琪的扬声器设计,两者对比可以看到在选择扬声器上的不同折衷和权衡。

Echo 采用封闭式扬声器设计,高音和低音喇叭上下相对,声音各个方向是对称的,这有有利于前端信号处理,但音效会受到限制。若琪采用开口式设计,喇叭朝前,这样音效可以设计的更好,但信号处理难度会大。

仅就音效而言,音腔越大越有利于设计,但这会导致最后智能音箱非常笨重。也因此,许多设计上都有音腔部分略微鼓起的外观设计(如 Google Home,叮咚)。

为了支持双工(例如,在播放音乐的同时可以对音箱下达命令),扬声器的功率不能太大,这样就限制了音箱的最大音量。反过来,如果要确保音箱有较大的音量,可能会限制双工条件下的音箱理解用户语音的灵敏度。1.3 麦克风阵列(Microphone Array)

麦克风阵列(以下简称麦列),是由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。简单而言,使用麦列而非单个麦克风,是为了在用户距离音箱较远时,依然能够正常的收听用户的语音指令。

智能音箱多使用环状麦列(图7),目前以 6(+1)麦为主流方案,也有2、4和8麦的产品。

图7. 6+1 麦列

麦列方案主要受成本和算法两个因素限制。一方面,虽然麦克风本身成本并不是特别高,但增加麦克风数量需要配套的增加采样等后续硬件的投入,会大大增加成本。另一方面,麦列涉及一系列算法(见下文),算法设计难度和计算复杂度都会随着麦克风数量的增加而加大。

在选择麦克风时,除了指向性、灵敏度、信噪比、频响范围、失真度等常规的参数要求,其安放位置、开口设计也要考虑ID设计和扬声器的位置、功放等,需要全盘考虑。

1.4 主控板

本质上,和手机等移动设备的主板并无差别,包括主板、CPU、存储器等(如图8)。主控板的选择要在满足响应延迟的前提下,尽量压缩成本和功耗。

图8. 全志G102

1.5 蓝牙/WIFI

智能音箱需要服务器提供大部分功能,因此,WiFi 是不可缺少的模块。有些音箱会通过蓝牙同手机通信。

1.6 电池

目前主要的智能音箱还是依赖电源线供电,但不排除随着电源蓄电能力和成本的改善,智能音箱会向手机一样,脱离成为可自由移动的设备。如果使用电池,还要结合 ID 设计、音腔设计等因素,合理选择电池的大小和位置、充电方案等。图 9 展示的是 Echo Tab 的电池方案。

图 9. Echo Tab 电池方案设计


2. 算法

用户在同音箱进行语音交互的时,后台有一系列算法在支撑的交互的正确进行。

如图10所示,总体而言,音箱工作时,麦列始终处于拾音状态(持续对声音信号进行采样、量化)。进过基本的信号处理(静音检测、降噪等),唤醒模块会判断是否出现唤醒词,如果是,后续语音会进行更复杂的语音信号处理,(理想情况下)得到干净的语音信号,开始真正的语音交互流程。

图10. 智能音箱交互

2.1 前端信号处理

2.1.1 语音检测(VAD)

语音检测(英文一般称为 Voice Activity Detection,VAD)的目标是,准确的检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,高效准确的 VAD 不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。

VAD 算法可以粗略的分为三类:基于阈值的 VAD、作为分类器的 VAD、模型 VAD。

基于阈值的 VAD:通过提取时域(短时能量、短期过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的。这是传统的 VAD 方法。

作为分类器的 VAD:可以将语音检测视作语音/非语音的两分类问题,进而用机器学习的方法训练分类器,达到检测语音的目的。

模型 VAD:可以利用一个完整的声学模型(建模单元的粒度可以很粗),在解码的基础,通过全局信息,判别语音段和非语音段。

VAD 作为整个流程的最前端,需要在本地实时的完成。由于计算资源非常有限,因此,VAD 一般会采用阈值法中某种算法;经过工程优化的分类法也可能被利用;而模型 VAD 目前难以在本地部署应用。

2.1.2 降噪

实际环境中存在着空调、风扇以及其他各种各样的噪声。降低噪声干扰,提高信噪比,降低后端语音识别的难度。

常用的降噪算法有 自适应 LMS 和维纳滤波等。

2.1.3 声学回声消除(Acoustic Echo Cancellaction, AEC)

AEC也是一种常见的技术,在语音通话中,AEC是必不可少的基础技术。

图11. AEC 示意

具体的,AEC 的目的是,在音箱扬声器工作(播放音乐或语音)时,从麦克风中收集的语音中,去除自身播放的声音信号。这是双工模式的前提。否则,当音乐播放时,我们的声音信号会淹没在音乐声中,不能继续对音箱进行有效的语音控制。

2.1.4 去混响处理

在室内,语音会被墙壁等多次反射,麦克风采集到(图12)。混响对于人耳完全不是问题,但是,延迟的语音叠加产生掩蔽效应,这对语音识别是致命的障碍。

图12. 混响

对于混响,一般从两个方面来尝试解决:1)去混响 2)对语音识别的声学模型加混响训练。由于真实环境的复杂性,一定的前端去混响算法还是非常有必要的。

2.1.5 声源定位(Direction of Arrival estimation, DOA)

声源定位是根据麦列收集的声音语,确定说话人的位置。DOA 至少有两个用途,1)用于方位灯的展示,增强交互效果;2)作为波束形成的前导任务,确定空间滤波的参数。

声源定位有如下常用方法有基于波束扫描的声源定位、基于起分辨率率谱估计的声源定位以及 基于到达时间差(Time Difference of Arrival, TDOA)的声源定位。考虑到算法复杂性和延时,一般采用TDOA方法。

2.1.6 波束形成(Beam Forming, BF)

波束形成是利用空间滤波的方法,将多路声音信号,整合为一路信号。通过波束形成,一方面可以增强原始的语音信号,另一方面抑制旁路信号,起到降噪和去混响的作用(图13)。

图13. 波形成示意图

2.2 唤醒

出于保护用户隐私和减少误识别两个因素的考虑,智能音箱一般在检测到唤醒词之后,才会开始进一步的复杂信号处理(声源定位、波束形成)和后续的语音交互过程。

一般而言,唤唤醒模块是一个小型语音识别引擎。由于目标单一(检测 出指定的唤醒词),唤醒只需要较小的声学模型和语言模型(只需要区分出有无唤醒词出现),声学打分和解码可以很快,空间占用少,能够在本地实时。

也有唤醒做为关键词检索(key word search)或文本相关的声纹识别问题来解决。

2.3 语音交互

语音交互的基本流程如图14所示。下面分别对各个环节进行简要介绍。

图14. 语音交互基本流程

2.3.1 语音识别(Automatic Speech Recognition, ASR)

语音识别的目的是将语音信号转化为文本。语音识别技术相对成熟。目前,基于近场信号的、受控环境(低噪声、低混响)下的标准音语音识别能够达到很的水平。然而在智能音箱开放性的真实环境,语音识别依然是一个不小的挑战,需要接合前端信号处理一起来优化。

2.3.2 自然语言理解(Natural Language Understanding, NLU)

NLU 作为一个研究课题还远没有被解决。但是在限定领域下,结合良好的产品设计,我们还是能够利用现有技术,做出实用的产品。

可以将基于框架的(frame-based) NLU 分为三个子问题去解决(图15):

* 领域分类:识别出用户命令所属领域。其中,领域是预先设计的封闭集合(如产品设计上,音箱只支持音乐、天气等领域),而每个领域都只支持无限预设的查询内容和交互方式。

* 意图分类:在相应领域,识别用户的意图(如播放音乐、暂停或切换等)。意图往往对应着实际的操作。

* 实体抽取(槽填充):确定意图(操作)的参数(如确定,具体是播放哪首歌或哪位歌手的歌曲)。

图15. 基于框架的自然语言理解

2.3.3 对话管理(Diaglou Management, DM)

多轮对话对于自然的人工交互非常重要。比如,当我们询问“北京明天的天气怎么?”,之后,更习惯追问“那深圳呢?”而不是重复的说”**深圳明天的天气怎么?**“

在 NLU 无有得到很好解决的情况下,对话管理似乎不可能。好在限范围下,结合产品设计,还是能做的不错。一般的作法是,将轮对话解析出的参数做为上下文(全局变量),带入到下一轮对话;当前轮对话,根据一定的条件判断,是否保持在上一轮的领域,是否清空上下文。

不同于纯粹的聊天机器的对话管理,智能音箱的对话管理还有实际的操作功能(查询信息、提供控制指令)。

2.3.4 自然语言生成(Natural Language Generation, NLG)

目前完全自动化的 NLG 方法还不成熟。实际产品中,多采用预先设计的文本模板来生成文本输出。比如,播放歌曲时,生成语句为:“即将为您播放【歌手名】的【歌曲名】”。

2.3.5 语音合成(Speech Synthesis)

语音合成又叫做文语转换(Text-to-Speech,TTS),更常见可能是 TTS 这一称呼。TTS 的终极目标是,使机器能够像人一样朗读任意给定的文本。

评价实用的语音合成系统的两个主要的标准是1)可懂度(人能够听懂)和2)自然度(使人听着舒服)。目前,可懂度的问题基本得到解决。参数合成和拼接合成是TTS的两种主要合成方法,其中,参数计算量小,部署灵活,但自然较差;拼接接近真人发音,存储和计算资源高,一般只能在线合成。例如,Echo 采用的基于单元选择(unit selection)的拼接合成。

2.4 其他技术

最后,我们简单列举一些相对成熟,但还没有广泛应用于智能音箱的技术。

声纹识别

声纹识别是据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的一项技术。微信中的声音锁就是声纹技术的一项具体应用。

通过声纹识别,可以设计出更加个性化的服务。

人脸检测

如果音箱配置为摄像头,可以通人脸检测,确定用户的位置。一方面可以有更好的交互设计,另一方面可以辅助声源定位。

人脸识别

同声纹识别类似,人脸识别也可以用来确定用户的身份。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AI智能音箱开发方案报告全文共5页,当前为第1页。AI智能音箱开发方案报告全文共5页,当前为第1页。AI智能音箱开发方案报告 AI智能音箱开发方案报告全文共5页,当前为第1页。 AI智能音箱开发方案报告全文共5页,当前为第1页。   AI智能音箱,是一个音箱升级的产物,是家庭消费者用语音进行上网的一个工具,智能音响具备智能语音交互系统、互联网服务内容,同时,可扩展更多设备、内容接入的智能终端产品。智能音响是在传统音响的基础上增加了智能化功能,AI智能音箱采用的是WI-FI网络连接方式,可完全脱离手机、平板等智能设备后自主播放各种影音,无需依附于任何外在设备,这也是它与蓝牙音箱使用上最大不同。另一方面可提供音乐、有声读物等内容服务、APP应用等互联网服务,同时实现场景化智能家居控制。   一、AI智能音箱的优点   AI智能音箱人工智能与传统音箱结合的产物。其基本原理是用户使用自然语言与机器(即音箱)交流,音箱通过识别用户的语音指令完成相应任务,如点播音乐、收听新闻、设置日程、查询信息等。   1、音质:音质对于任何一台音响来说,都是衡量好坏的标准。好的音箱在一支张动态范围大的乐曲中,能够明显辨听出其低音份量与高音份量的瞬间动态爆发力。以至于其音色冷、暖,细腻程度、乐曲层次分明都能表现出来。   2、稳定性:当设备一旦被冠上"智能"的名号以后,由于无线连接存在不确定的干扰因素,所以稳定性对于一台AI智能音箱来说也至关重要,谁会希望欣赏一首歌时,断断续续呢? AI智能音箱开发方案报告全文共5页,当前为第2页。AI智能音箱开发方案报告全文共5页,当前为第2页。  3、外观:音箱是摆在家中的一种饰品,外观好看的音箱确实比较赏心悦目,除了音质要好以外,对于外观造型,我们当然也要有所追求。 AI智能音箱开发方案报告全文共5页,当前为第2页。 AI智能音箱开发方案报告全文共5页,当前为第2页。   4、易用性:其实一台AI智能音箱需要考虑的是易用性,无论是蓝牙连接,还是WiFi连接,最最重要就是容易连接上,连接过程需要简单不繁琐,才能给你较好的体验。   二、AI智能音箱功能介绍   目前AI智能音箱已经拥有非常丰富的功能了,但是对于AI智能音箱整体的行业来说,AI智能音箱依然处于初级阶段,最常用的功能还是听音乐,其他方面还需要进一步的完善,才能真正应用于日常生活。   1、语音交互功能   语音交互一直是AI智能音箱最为核心的优势。设计师在AI智能音箱的语音交互方面进行了深入的研究,增强其对于自然语义的理解,让用户可以通过语音来操控AI智能音箱,从最基本的语音点歌,到相对比较复杂的上网购物,甚至是对智能家居的所有设备进行控制。   2、有声资源播放   音箱作为一种播放载体,自然离不开内容的支撑,而对于AI智能音箱来说,内容不再仅仅只是音乐一种,而是包括各类有声资源,如读书会、蜻蜓FM电台等。 AI智能音箱开发方案报告全文共5页,当前为第3页。AI智能音箱开发方案报告全文共5页,当前为第3页。  3、智能家居控制 AI智能音箱开发方案报告全文共5页,当前为第3页。 AI智能音箱开发方案报告全文共5页,当前为第3页。   AI智能音箱一直被看作是未来的家庭智能控制终端,它将会作为一个万能的语音遥控器,控制灯光、窗帘、电视、空调、洗衣机、电饭煲等智能家居设备,对智能家居来说,仅仅使用手机APP操控并不符合物联网的最终概念,语音交互才是理想模式。这个功能的实现还需家居设备支持不过现在智能家居设备还未普及,AI智能音箱的控制终端之路还漫长。   4、生活O2O服务   生活服务也是AI智能音箱非常重要的一方面功能,可以通过与支付宝口碑、滴滴出行等第三方应用的合作,提供查询周边、餐厅促销信息、路况、火车、机票、酒店等信息。   通过自身依靠的强大电商平台,用户通过语音可以在音箱上是实现购物,或者借助第三方应用,实现其他类型的O2O服务。比如:打车、订机票、餐厅、查物流等,可以在不打开手机的情况下,进一步方面人们的生活。   5、生活小工具   基于家庭的使用场景,AI智能音箱还开发了一些非常实用的小工具。   如有些AI智能音箱,它拥有如计算器、单位换算、查限行、星座运势、留言机等小工具,在日常生活中用途还是很多的,而且相比人们常用的智能手机,AI智能音箱只需"动嘴",自然也会更加方便。 AI智能音箱开发方案报告全文共5页,当前为第4页。AI智能音箱开发方案报告全文共5页,当前为第4页。  目前AI智能音箱已经拥有非常丰富的功能了,但是对于AI智能音箱整体的行业来说,AI智能音箱依然处于初级阶段,最常用的功能还是听音乐,其他方面还需要进一步的完善,才能真正应用于日常生活。 AI智能音箱开发方案报告全文共5页,当前为第4页。 AI智能音箱开发方案报

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值