智能语音助手调研【简单可行方案及开源代码】

最新推荐文章于 2024-09-15 07:58:29 发布

SeafyLiang

最新推荐文章于 2024-09-15 07:58:29 发布

阅读量3.2k

点赞数 3

分类专栏：深度学习文章标签：语音识别人工智能深度学习

本文链接：https://blog.csdn.net/seafyliang/article/details/120298401

版权

深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

智能语音助手调研

需求：

像百度等是否有语音智能助手，利用语音来检索知识
可以私有化部署

部署方式：

云端训练，部署后调用云端API
线下部署，需注册为开发者，与平台沟通购买相关服务
购买整套服务，平台提供售后

不收费版本：

github-开源语音助手
在这里插入图片描述

集成方案

语音转文字（语音识别）：语音识别-百度AI开放平台得调API

在这里插入图片描述

离线命令词识别-科大讯飞

文字拆分，生成指令：PaddleHub 分词模型LAC

中文NLP的第一步：分词，基于 PaddleHub 实现，绝对小白友好（学习心得）

指令调接口查询
返回结果展示
语音合成：

离线语音合成-百度AI开放平台
 百度语音合成快速集成指南-实现步骤
在这里插入图片描述

Parakeet：手把手教你训练语音合成模型（脚本任务、Notebook）
离线文字转语音-简书

简单可行方案及开源代码👍👍👍

一、Pocketsphinx

通过声学信号转化–分析转化为音素–电脑理解的最小声音信号单元.
应用场景：要求速度快，内存占用少，准确率不高，基本上属于对照最相似的声音信号输出固定性文字。
问题限制：通过增加语素对应的词典，可以实现多语种的切换，和词汇的扩充。语料词典耗费比较高。

import os
from pocketsphinx import AudioFile, get_model_path, get_data_path

model_path = get_model_path()
print(model_path)
data_path = get_data_path()

'''
支持的文件格式:wav
音频文件的解码要求: 16KHz, 单声道
'''
config = {
    'verbose': False,
    'audio_file': './data/output/1_1.wav',
    'buffer_size': 2048,
    'no_search': False,
    'full_utt': False,
    'hmm': os.path.join(model_path, 'en-us'), # 计算模型
    'lm': os.path.join(model_path, 'en-us.lm.bin'),#语言模型
    'dict': os.path.join(model_path, 'cmudict-en-us.dict')# 词典模型
}

audio = AudioFile(**config)
for phrase in audio:
    print(phrase)