常见的语音相关工具很多,这里介绍几种常见的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他语音识别工具。常用的Kaldi,也有端到端的工具ESPnet等。
1、Kaldi
Kaldi是 danpovey大神使用C++编写的开源语音识别工具集。目前占据整个语音识别工具的半边天。目前danpovey已经加入国内公司小米。
1). 资源:
文档:http://kaldi-asr.org/doc/build_setup.html
论文:http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf
kaldi作者Dan Povey's博客:http://www.danielpovey.com/kaldi-lectures.html
gitbook上面中文教程Chinese Doc of Kaldi:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html 版本比较老。
2). 截止到2023年6月底github活跃情况:
https://github.com/kaldi-asr/kaldi
2、PyTorch-Kaldi
Pytorch-Kaldi是一个开源的state-of-the-art DNN/RNN用于语音识别的项目。DNN部分依赖于Pytorch,数据预处理、特征提取、解码等依赖于Kaldi。
1). 资源:
github:https://github.com/mravanelli/pytorch-kaldi
论文:https://arxiv.org/abs/1811.07453
vedio:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s
Next Version: SpeechBrain
2). 截止到2023年6月底github活跃情况:
3、SpeechBrain
SpeechBrain项目旨在完全基于PyTorch构建新颖的语音工具包。借助SpeechBrain,用户可以轻松创建语音处理系统,范围包括语音识别(HMM / DNN和端到端的系统),说话人识别,语音增强,语音分离,多麦克风语音处理等。
1). 资源:
主页:https://speechbrain.github.io/
github:https://github.com/speechbrain/speechbrain.github.io
vedio:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be
2). 截止到2023年6月底github活跃情况:
哔哩哔哩视频链接:https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986
4、pykaldi
PyKaldi是Kaldi语音识别工具包的Python脚本层。为Kaldi和OpenFst库中的C ++代码提供了易于使用,开销低,一流的Python包装器。可以使用PyKaldi编写Python代码来完成其他需要编写C ++代码的事情,例如调用低级Kaldi函数,在代码中操作Kaldi和OpenFst对象或实现新的Kaldi工具。
1). 资源:
文档:https://pykaldi.github.io/
github:https://github.com/pykaldi/pykaldi
论文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf
2). 截止到2023年6月底github活跃情况:
5、ESPnet
ESPnet是一个端到端的语音工具,专注于端到端的语音识别和端到端的文本转语音。使用chainer和pytorch作为主要的深度学习引擎(框架)。遵循kaldi风格的数据处理、特征提取和格式化等。提供了一个完整的pipline。
1). 资源:
文档:https://espnet.github.io/espnet/
github:https://github.com/espnet/espnet
论文:https://arxiv.org/abs/1804.00015?context=cs
2). 截止到2023年6月底github活跃情况:
图像那边也有一个ESPnet,比如这个语义分割的演示视频:https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989
6、其他语音工具
1). 其他著名语音识别引擎及其特点:
CMU Sphinx、HTK、Julius、RWTH ASR
2). 移动或者手机端:
Assistant.ai、Dragon Dictation、SILVIA、Vlingo
3). 还有一些wiki的可以参考的:
wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software
b站的一些国外的语音相关的视频
【 语音自然语言深度学习课程 】Deep Learning for Speech and Language(合辑)(英文字幕部分)
https://www.bilibili.com/video/av38854819/
【 语音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment(英文字幕)
https://www.bilibili.com/video/av36308563/
【 语音Speaker Verification 】Generalized End-to-End Loss for Speak(英文字幕)
https://www.bilibili.com/video/av36308874/
【语音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe(英文字幕)
https://www.bilibili.com/video/av36308701/
【 两分钟论文 】This AI Learned To Isolate Speech Signals(英文字幕)
https://www.bilibili.com/video/av35977892/
相关推荐阅读
• 免费中文语音数据集
https://mp.weixin.qq.com/s?__biz=MzIwNzcwOTMxNg==&mid=2247483745&idx=1&sn=ce927e1ac54f5a474b618679bb786e6e&chksm=970f748aa078fd9c52a4b3a57b50cb2c95f8a1682c72ccf19149bedcf77ad85ab7dcb870d17e&scene=21#wechat_redirect
• 语音识别书籍和学习资料推荐
1、语音识别书籍
(1)《语音信号处理》 韩纪庆 张磊著
主要特点:包含了大量语音信号相关的基础知识,以及智能语音的几个主要方向,适合广泛阅读和了解。
推荐指数:★★★★☆
(2)《语音识别原理与应用》 洪青阳 李琳著
主要特点:详细介绍了语音识别相关系统,包括宜些历史发展和演进,从HMM到端到端系统都有介绍,以及介绍了一下kaldi和espnet的使用等。
推荐指数:★★★★☆
(3)《kaldi语音识别实践》陈果果 都家宇著
主要特点:主要结合了理论和kaldi的实际使用方法,适合入门和kaldi学习使用。
推荐指数:★★★☆☆
(4)《Spoken Language Processing A Guide to Theory Algorithm and System Development》 黄学东著
主要特点:语音方向的代表著作,覆盖方向齐全。
推荐指数:★★★☆☆
(5)《解析深度学习 语音识别实践》俞栋 邓力著,俞凯 钱彦旻译
主要特点:对于语音识别传统算法和深度学习算法都有比较详尽的讲解,理论推导较多。
推荐指数:★★☆☆☆
(6)《Speech Recognition Algorithms Using Weighted Finite-State Transducers》
主要特点:详细介绍了WFST相关的知识和理论,需要深入掌握WFST解码的同学非常适合学习。
推荐指数:★★★★☆
2、其他相关博客
(7)《深度学习理论与实战:提高篇》 李理著
主要特点:理论与实例结合,有非常简单的代码示例去辅助理论的理解。
推荐指数:★★★★☆
链接:深度学习理论与实战:提高篇 - 李理的博客
http://fancyerii.github.io/2019/03/14/dl-book/
(8)Speech Processing
主要特点:CMU的语音课程
推荐指数:★★★☆☆
链接:http://www.speech.cs.cmu.edu/15-492
CTC理论和实战:http://fancyerii.github.io/books/ctc/
DeepSpeech理论与实战:http://fancyerii.github.io/books/deepspeech/
Kaldi简介:http://fancyerii.github.io/books/kaldi/
3、语音方向书籍:
1、语音信号处理(第二版)_赵力.pdf
2、语音信号处理实验教程.pdf
3、语音信号处理C++版.pdf
4、实用语音识别基础_王炳锡.pdf
5、计算机语音处理_[日]安居院 猛.pdf
6、语音处理与编码_张刚、张雪英.pdf
7、语音识别基本原理_[美]Lawrence_R._Rabiner
8、解密复兴科技 基于隐马尔科夫模型的时序分析方法.pdf
9、隐Markov模型(HMM及其在语音处理中的应用).pdf
10、语音信号处理_韩纪庆.pdf
11、现代语音信号处理(第四版)_胡航.pdf
12、数字信号处理的原理与应用_[美]L.R.拉宾纳、戈尔德(B. Gold).pdf
13、语音信号线性预测.pdf
14、语音增强 理论与实践_[美]罗艾洲.pdf
15、语音增强(Speech Enhancement)_陈景东.pdf
16、计算机语音技术(修订版)_朱民雄、闻新.pdf
17、解析深度学习:语音识别实践_俞栋,邓力.pdf
18、深度学习理论与实战:基础篇_李理.pdf
19、深度学习理论与实战:提高篇_李理.pdf
20、应用模式识别技术导论 人脸识别与语音识别.pdf
21、数字信号处理 理论与应用(第3版).pdf
22、音乐的数字信号处理:一种计算机听觉的视角.pdf
23、神经网络与信号分析_余英林,李海洲著.pdf
24、数字语音处理及MATLAB仿真_张雪英.pdf
25、MATLAB在语音信号分析与合成中的应用_宋知用.pdf
26、MATLAB数字信号处理_王彬、于丹、汪洋.pdf
27、MATLAB扩展编程.pdf
28、Windows声音应用程序开发指南_张新宇.pdf
29、Visual C++多媒体特效制作百例.pdf
30、Visual C++实践与提高 多媒体篇.pdf
31、Visual C++6.0多媒体开发指南_李博轩.pdf
32、Visual C++.NET多媒体应用开发技术.pdf
33、藏语模式识别技术及工程实践_欧珠.pdf
34、数字信号处理的并行算法
35、数字音频规范与程序设计 基于Visual C++开发.pdf