识别离线开发包_基于i.MX RT的语音识别方案

最新推荐文章于 2024-08-09 07:00:09 发布

热茶走

最新推荐文章于 2024-08-09 07:00:09 发布

阅读量388

点赞数

文章标签：识别离线开发包

本文链接：https://blog.csdn.net/weixin_33575756/article/details/112693848

版权

本文介绍了恩智浦针对IoT的语音识别方案，基于i.MX RT系列MCU实现本地离线语音唤醒及控制、基于云端的远程控制和“Alexa”唤醒服务。该方案强调低成本、低功耗，适用于智能家居设备，提供了软硬件框架设计，包括FreeRTOS开发包和音频处理、AI预测引擎等功能。测试结果显示，CPU算力和内存占用率均保持在较低水平，为客户提供高性价比选择。

摘要由CSDN通过智能技术生成

前言

“AI+IoT”将是未来的风口，各种应用和商机将成井喷式增长，国内外各大互联网巨头早已提前布局AI+IoT的战略，这同时也是恩智浦的核心战略之一。AI+IoT技术的应用，大到汽车和电视，小到灯泡、闹钟，都可以使用AI的控制技术。

今天就给大家介绍一下，恩智浦IoT解决方案团队针对低功耗、低成本的，基于人工智能技术的语音识别，在iMX RT上的软硬件设计和实现。基于该方案能针对智能家居的各种设备提供以下三种应用场景：

本地离线语音唤醒及语音控制。
本地唤醒，基于云端语音及语义识别的远程控制。
本地“Alexa”唤醒，基于云端AWS SDK的语音助手服务。

接下来介绍一下具体的这三种应用场景的逻辑框图和通用的硬件和软件方案。

本地离线语音唤醒及语音控制

如下图所示，这是完全不需要借助网络的本地语音识别模块，可以广泛应用在智能家居的低成本设备如组合灯泡、开关等离线语音唤醒，也可用于白色家电的升级换代，目前许多冰箱，洗衣机，空调等厂商已经表现出浓厚的兴趣。

该方案模块包含了语音的前端降噪、去回声等通用DSP算法，并且包含了WWE (Wake Word Engine)来处理基于AI模型的关键词唤醒的算法预测，在唤醒成功以后再进行多词条控制命令的AI模型预测。整个系统实现非常轻巧，满足低功耗和低成本的要求，非常适合做成通用智能语音模块来加以推广，针对不同的应用和厂商可以定制相应的AI语音模型。真正做到了客户交钥匙模式的方案提供。

为了能有一个更直观的了解，我们提供了相关demo的演示视频：

本地唤醒，基于云端识别的远程控制

如下图所示，在本地基于唤醒词的语音识别，然后通过交互的方式，把后面的语音输入传递到云端作进一步的智能识别。至于后面的语音控制识别，是基于关键字的识别还是更智能化的自然语言语义识别，则取决于后台的第三方AI云服务商，作为终端智能模块，该方案更多的是处理本地AI的语音关键词识别。所以和离线识别的方案实现原理差不多。

本地"Alexa"唤醒
基于云端AWS的语音助手服务

如下图所示，基于恩智浦的低成本语音识别平台，还可以做低成本的智能音箱和智能语音助手，根据产品的定位和硬件的具体配置，可以开发并集成AWS/AVS/AIS等不同等级的SDK支持，也可以完全做中国本地化的语音助手SDK的集成。

下面是一个“Alexa”语音助手的视频：

限于篇幅的限制，大概介绍了一下这三种应用场景，下面快速进入技术流们最关心的软硬件框架设计，以便进一步说明为啥该方案能够做到极低成本，却还能做到如此丰富的AI语音识别应用。

硬件框架结构

如下图所示，该方案的核心就是恩智浦的iMX RT105x跨界处理器，该产品以MCU的价格让客户得到MPU的性能体验，具有极高的性价比。

i.MX RT105x具有足够的计算性能和灵活的存储器配置，可以在不依赖于外接SDRAM时运行整个完整的AI语音模块。BOM成本是选用MPU方案所不能比拟的。由于基于MCU和新的工艺制程，使得整个方案的物理尺寸和功耗也是堪称完美组合，框图下边是开发板(3x4cm)和美元硬币的尺寸比较，可以很直观的看到整个PCBA非常小。

在硬件框图中，主要的部件是MCU、Audio Ampifier、NOR flash，另外Wi-Fi模块和A71CH加密芯片是可选的，还有一些必须的DC regulator和数字麦克风和扬声器。

对于某些应用不需要音频输出，而是接到HOST来做LED和显示更新的场景。可以去掉图中的扬声器和Audio Amplifier，达到更低的BOM成本。

目前的开发板方案可以支持3路麦克风输入，最多可以支持5路麦克风。当然这要根据客户具体的要求来做设计，因为更多的MIC会造成更多的PDM缓存，而导致外扩SDRAM致使成本提高。