智能语音助手调研【简单可行方案及开源代码】

需求:

像百度等是否有语音智能助手,利用语音来检索知识
可以私有化部署

方案一:百度智能对话AI产品(3个)

  1. 百度AI市场-智能对话
  2. 百度-DuerOS智能语音助理解决方案
    1. DuerOS智能语音手机助手
  3. 百度智能对话定制与服务平台UNIT-快速搭建对话机器人
    1. 百度UNIT私有化部署产品

聊天机器人:
图灵聊天机器人
青云客聊天机器人

方案二:阿里AI语音助手

阿里智能语音交互(语音识别,语音合成)
阿里AI语音助手

方案三:科大讯飞语音助手

科大讯飞-AI电视助手
科大讯飞-AI智能客服解决方案

部署方式:

  • 云端训练,部署后调用云端API
  • 线下部署,需注册为开发者,与平台沟通购买相关服务
  • 购买整套服务,平台提供售后

不收费版本:

github-开源语音助手
在这里插入图片描述

集成方案

  1. 语音转文字(语音识别):语音识别-百度AI开放平台 得调API

在这里插入图片描述

离线命令词识别-科大讯飞

  1. 文字拆分,生成指令:PaddleHub 分词模型LAC

中文NLP的第一步:分词,基于 PaddleHub 实现,绝对小白友好(学习心得)

  1. 指令调接口查询
  2. 返回结果展示
  3. 语音合成:

离线语音合成-百度AI开放平台
百度语音合成快速集成指南-实现步骤
在这里插入图片描述

Parakeet:手把手教你训练语音合成模型(脚本任务、Notebook)
离线文字转语音-简书

简单可行方案及开源代码👍👍👍

一、Pocketsphinx

  1. 通过声学信号转化–分析转化为音素–电脑理解的最小声音信号单元.
  2. 应用场景:要求速度快,内存占用少,准确率不高,基本上属于对照最相似的声音信号输出固定性文字。
  3. 问题限制:通过增加语素对应的词典,可以实现多语种的切换,和词汇的扩充。语料词典耗费比较高。
import os
from pocketsphinx import AudioFile, get_model_path, get_data_path

model_path = get_model_path()
print(model_path)
data_path = get_data_path()

'''
支持的文件格式:wav
音频文件的解码要求: 16KHz, 单声道
'''
config = {
    'verbose': False,
    'audio_file': './data/output/1_1.wav',
    'buffer_size': 2048,
    'no_search': False,
    'full_utt': False,
    'hmm': os.path.join(model_path, 'en-us'), # 计算模型
    'lm': os.path.join(model_path, 'en-us.lm.bin'),#语言模型
    'dict': os.path.join(model_path, 'cmudict-en-us.dict')# 词典模型
}

audio = AudioFile(**config)
for phrase in audio:
    print(phrase)

参考资料:【CSDN博客】pocketsphinx库(离线语音识别)

二、基于PPASR的语音识别

  1. PPASR使用卷积神经网络,使用了CTC Loss作为损失函数。
  2. 应用场景:可以做到小范围的前后语义的理解,准确率一般,模型文件大小100M以上。对词语短句的理解比较好。
  3. 问题限制:(1)训练过程耗费时间。(2)需要更好的计算资源。(3)需要数据集训练才能更好的训练出效果。

项目地址:【AIStudio】PPASR语音识别(入门级)
项目Github地址:https://github.com/yeyupiaoling/PPASR

三、基于ASRT的语音识别

  1. ASRT可以说是在PPASR上的改进,增加了递归神经网络,使模型对整句话的理解有所提升。
  2. 应用场景:可以前后语义的理解,准确率较好,对词语短句的理解比较好。
  3. 问题限制:(1)训练过程耗费时间。(2)更需要好的计算资源。(3)需要数据集训练才能更好的训练出效果。

本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。
项目Github地址:https://github.com/nl8590687/ASRT_SpeechRecognition.git

时下带有语音助手功能的智能网关产品越来越流行,比如小米的智能音箱,天猫精灵等等互联网公司都纷纷推出基于智能家居环境应用的网关产品包括家用的节点设备。这种网关最大的体现了语音识别技术,基于云端的数据安全技术,同时又结合Wi-Fi技术实现一系列智能化应用产品的互联互通。目前市面上销售的产品基本上都是以MTK以及Rockchip,Realtek等等成本较高的方案为主。出于成本因素,Microchip推出了一款基于ATSAMG55J19A-MU+WINC1500B为主的完整的解决方案,该方案在Amazon已经形成产品化。 对于基于Amazon Alexa 的Microchip语音助手解决方案。结合Amazon电商购物平台,又支持Amazon一键WiFi购物的功能,一键Wi-Fi购物,就是您可以按下自动定购已经标记的产品来购买商品,同时也可以对其直接语音告诉它你要想购买的商品。 Amazon New Amazon Dash Wand “魔棒”已经量产,相信国内的电商巨头也会将这种便捷快捷的购物方式引入到国内市场。 核心技术优势1. 150mS快速回连AP 2. 超300款AP 兼容测试 3. 支持AWS ,阿里云,微软云 4. 提供主机端驱动原码 5. 提供多种安全连接云应用的参考例子 方案规格ATSAMG55: 1:Cortex-M4内核,FPU。主频可达到120MHz。 2:超低功耗 (1)在运行模式只有 100 µA/MHz。 (2)在深度睡眠SRAM保持模式下: 7 µA 。 (3)从深度睡眠到工作模式,唤醒时间只需要 3 µs。 3:Flash:512KB/SRAM:176KB。 4:工作电压:1.62V to 3.6V 5:温度范围:-40 ℃to 85℃ 6:片上集成UART,ADC.SPI,USB等丰富的外设接口。 WINC1500: 1:支持2.4GHz b/g/n IoT网络控制器。 2:超低功耗。 3:工作电压: 3.0V to 4.2V。 4:接口: SPI。 5:支持安全协议: WPA/WPA2 Personal, TLS, SSL。 6:支持网络服务: DHCP, DNS, TCP/IP (IPv4), UDP, HTTP, HTTPS。 7:Chip 和 PCB 天线(ATWINC1500-MR210PBxxxx) 8:Chip 和u.FL (ATWINC1500-MR210UBxxxx) 9:ATWINC1500-MR210PBxxxx (4Mb flash)和ATWINC1510-MR210PBxxxx (8Mb flash)。 10:开发环境支持Atmel Studio 7 - 可查阅ASF笔记。 11:认证: in the US, Canada, Europe, Japan, Korea, China, India 和Taiwan。 方案来源于大大通。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值