wukong-robot 语音识别&语音合成

本文为我的 源代码阅读专栏 第一个工程的代码阅读——wukong-robot 一个优秀的开源智能音箱项目。本文解析的源代码文件为robot文件夹中智能语音相关文件——ASR.py和TTS.py

wukong-robot相关语音识别引擎介绍

wukong-robot相关语音识别调用代码放在ASR.py中。ASR.py文件对百度、腾讯、讯飞和阿里的语音识别接口统一封装成语音识别引擎,以方便wukong-robot自有调用。这些引擎都封装成了类,并且继承自抽象类AbstractASR。下面我先对AbstractASR进行分析,然后分别对各语音识别引擎进行简单的解析

AbstractASR类

AbstractASR类提供了SLUG属性用以标识当前对象的具体插件功能,同时提供了以下抽象方法供子类进行个性化实现:

  • transcribe。实现具体的语音识别功能
  • get_instance。用于实例化不同的语音识别引擎
  • get_config。由各子类实现,用于获取不同引擎的配置

BaiduASR

百度的语音识别引擎可以使用百度开放的python包aip,也可以使用百度开放的http接口调用。作者将百度开放的http接口封装在robot/sdk/BaiduSpeech.py中

TencentASR

作者将腾讯开放的语音识别http接口封装在robot/sdk/TencentSpeech.py中,然后由TencentASR来调用

XunfeiASR

作者将讯飞开放的语音识别http接口封装在robot/sdk/XunfeiSpeech.py中,然后由XunfeiASR来调用

AliASR

作者将阿里开放的语音识别http接口封装在robot/sdk/AliSpeech.py中,然后由AliASR来调用

语音识别引擎的加载

ASR.py中额外提供了两个方法:get_engines和get_engine_by_slug。
get_engines可以递归搜索并返回所有继承于AbstractASR的类
get_engine_by_slug通过slug参数寻找类,实例化此类为对象并返回

wukong-robot相关语音合成引擎介绍

wukong-robot相关语音识别调用代码放在TTS.py中。TTS.py文件对百度、腾讯、讯飞和阿里的语音识别接口统一封装成语音识别引擎,以方便wukong-robot自有调用。这些引擎都封装成了类,并且继承自抽象类AbstractTTS。下面我先对AbstractTTS进行分析,然后分别对各语音识别引擎进行简单的解析。(tts的代码布局基本与asr一致,熟悉代码的童鞋可忽略)

AbstractTTS类

AbstractTTS类提供了SLUG属性用以标识当前对象的具体插件功能,同时提供了以下抽象方法供子类进行个性化实现:

  • get_speech。实现具体的语音合成功能
  • get_instance。用于实例化不同的语音合成引擎
  • get_config。由各子类实现,用于获取不同引擎的配置

HanTTS

作者将HanTTS语音合成引擎中的部分代码拷贝到wukong-robot项目中,主要有atc.py——实现数字转汉字功能;process.py——语音合成处理逻辑。主要处理逻辑为:

  1. 将文字格式化为全汉字,去掉标点符号
  2. 使用pypinyin将文字转换为拼音
  3. 根据拼音从语音库 syllables.zip中找到对应语音
  4. 根据标点符号设定不同的语音间隔,
  5. 通过AudioSegment将语音和语音间隔合成为一段声音

BaiduTTS

百度的语音合成引擎可以使用百度开放的python包aip来实现

TencentTTS

作者将腾讯开放的语音合成http接口封装在robot/sdk/TencentSpeech.py中,然后由TencentTTS来调用

XunfeiTTS

作者将讯飞开放的语音合成http接口封装在robot/sdk/XunfeiSpeech.py中,然后由XunfeiTTS来调用

AliTTS

作者将阿里开放的语音合成http接口封装在robot/sdk/AliSpeech.py中,然后由AliTTS来调用

语音识别引擎的加载

TTS.py中额外提供了两个方法:get_engines和get_engine_by_slug。
get_engines可以递归搜索并返回所有继承于AbstractTTS的类
get_engine_by_slug通过slug参数寻找类,实例化此类为对象并返回

用到的技术点

  • classmethod修饰符。classmethod 修饰符对应的函数不需要实例化,不需要 self 参数,但第一个参数需要是表示自身类的 cls 参数,可以来调用类的属性,类的方法,实例化对象等

  • 递归搜索并返回所有继承于AbstractASR的类:

def get_engines():
    def get_subclasses(cls):
        subclasses = set()
        for subclass in cls.__subclasses__():
            subclasses.add(subclass)
            subclasses.update(get_subclasses(subclass))
        return subclasses
    return [engine for engine in list(get_subclasses(AbstractASR)) if hasattr(engine, 'SLUG') and engine.SLUG]
  • pypinyin。将汉字转换为拼音包
  • AudioSegment。pydub的一个包,用于声音分割

参考

考虑到项目源代码可能会被作者更新,致使代码与我的总结文档不一致,下面列表中会提供原始代码链接和冻结代码链接。冻结代码链到我自己fork的工程中,大家如果需要找原始源码,可以点击原始代码链接

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
wukongrobot 是一个简单、灵活、优雅的中文语音对话机器人/智能音箱项目,还可能是首个支持脑机交互的开源智能音箱项目。 特性: 1、模块化。 功能插件、语音识别语音合成、对话机器人都做到了高度模块化,第三方插件单独维护,方便继承和开发自己的插件。 2、中文支持。 集成百度、科大讯飞、阿里、腾讯等多家中文语音识别语音合成技术,且可以继续扩展。 3、对话机器人支持。 支持基于 AnyQ 的本地对话机器人,并支持接入图灵机器人、Emotibot 等在线对话机器人。 4、全局监听,离线唤醒。 支持 Muse 脑机唤醒,及无接触的离线语音指令唤醒。 5、灵活可配置。 支持定制机器人名字,支持选择语音识别和合成的插件。 6、智能家居。 支持和 mqtt、HomeAssistant 等智能家居协议联动,支持语音控制智能家电。 7、后台配套支持。 提供配套后台,可实现远程操控、修改配置和日志查看等功能。 8、开放API。 可利用后端开放的API,实现更丰富的功能。 9、安装简单,支持更多平台。 相比 dingdang-robot ,舍弃了 PocketSphinx 的离线唤醒方案,安装变得更加简单,代码量更少,更易于维护并且能在 Mac 以及更多 Linux 系统中运行。 环境要求: Python 版本 wukong-robot 只支持 Python 3.5+,不支持 Python 2.x 。 设备要求 wukong-robot 支持运行在以下的设备和系统中: 64bit Mac OS X 64bit Ubuntu(12.04 and 14.04) 全系列的树莓派(Raspbian 系统) Pine 64 with Debian Jessie 8.5(3.10.102) Intel Edison with Ubilinux (Debian Wheezy 7.8) 装有 WSL(Windows Subsystem for Linux) 的 Windows
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值