语音识别相关工具

最新推荐文章于 2024-04-10 09:41:15 发布

一只小小加菲猫

最新推荐文章于 2024-04-10 09:41:15 发布

阅读量211

点赞数

文章标签：语音识别人工智能

本文链接：https://blog.csdn.net/dcj_56dcj/article/details/131527696

版权

本文介绍了几种主流的语音识别工具，包括Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi和ESPnet，涵盖了从传统方法到端到端模型的各种实现，同时提到了一些其他的语音工具和资源，如CMUSphinx和移动端应用。

摘要由CSDN通过智能技术生成

常见的语音相关工具很多，这里介绍几种常见的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他语音识别工具。常用的Kaldi，也有端到端的工具ESPnet等。

1、Kaldi

Kaldi是 danpovey大神使用C++编写的开源语音识别工具集。目前占据整个语音识别工具的半边天。目前danpovey已经加入国内公司小米。
1). 资源：
文档：http://kaldi-asr.org/doc/build_setup.html
论文：http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf
kaldi作者Dan Povey's博客：http://www.danielpovey.com/kaldi-lectures.html
gitbook上面中文教程Chinese Doc of Kaldi：https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html 版本比较老。
2). 截止到2023年6月底github活跃情况：
https://github.com/kaldi-asr/kaldi

2、PyTorch-Kaldi
Pytorch-Kaldi是一个开源的state-of-the-art DNN/RNN用于语音识别的项目。DNN部分依赖于Pytorch，数据预处理、特征提取、解码等依赖于Kaldi。
1). 资源：
github：https://github.com/mravanelli/pytorch-kaldi
论文：https://arxiv.org/abs/1811.07453
vedio：https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s
Next Version: SpeechBrain
2). 截止到2023年6月底github活跃情况：

3、SpeechBrain
SpeechBrain项目旨在完全基于PyTorch构建新颖的语音工具包。借助SpeechBrain，用户可以轻松创建语音处理系统，范围包括语音识别（HMM / DNN和端到端的系统），说话人识别，语音增强，语音分离，多麦克风语音处理等。
1). 资源：
主页：https://speechbrain.github.io/
github：https://github.com/speechbrain/speechbrain.github.io
vedio：https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be
2). 截止到2023年6月底github活跃情况：
哔哩哔哩视频链接：https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

4、pykaldi
PyKaldi是Kaldi语音识别工具包的Python脚本层。为Kaldi和OpenFst库中的C ++代码提供了易于使用，开销低，一流的Python包装器。可以使用PyKaldi编写Python代码来完成其他需要编写C ++代码的事情，例如调用低级Kaldi函数，在代码中操作Kaldi和OpenFst对象或实现新的Kaldi工具。
1). 资源：
文档：https://pykaldi.github.io/
github：https://github.com/pykaldi/pykaldi
论文：https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf
2). 截止到2023年6月底github活跃情况：

5、ESPnet
ESPnet是一个端到端的语音工具，专注于端到端的语音识别和端到端的文本转语音。使用chainer和pytorch作为主要的深度学习引擎（框架）。遵循kaldi风格的数据处理、特征提取和格式化等。提供了一个完整的pipline。
1). 资源：
文档：https://espnet.github.io/espnet/
github：https://github.com/espnet/espnet
论文：https://arxiv.org/abs/1804.00015?context=cs
2). 截止到2023年6月底github活跃情况：
图像那边也有一个ESPnet，比如这个语义分割的演示视频：https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989

6、其他语音工具
1). 其他著名语音识别引擎及其特点：
CMU Sphinx、HTK、Julius、RWTH ASR

2). 移动或者手机端：
Assistant.ai、Dragon Dictation、SILVIA、Vlingo

3). 还有一些wiki的可以参考的：
wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software

b站的一些国外的语音相关的视频
    【语音自然语言深度学习课程】Deep Learning for Speech and Language（合辑）（英文字幕部分）
https://www.bilibili.com/video/av38854819/
    【语音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment（英文字幕）
https://www.bilibili.com/video/av36308563/
    【语音Speaker Verification 】Generalized End-to-End Loss for Speak（英文字幕）
https://www.bilibili.com/video/av36308874/
    【语音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe（英文字幕）
https://www.bilibili.com/video/av36308701/
    【两分钟论文】This AI Learned To Isolate Speech Signals（英文字幕）
https://www.bilibili.com/video/av35977892/

相关推荐阅读
• 免费中文语音数据集
https://mp.weixin.qq.com/s?__biz=MzIwNzcwOTMxNg==&mid=2247483745&idx=1&sn=ce927e1ac54f5a474b618679bb786e6e&chksm=970f748aa078fd9c52a4b3a57b50cb2c95f8a1682c72ccf19149bedcf77ad85ab7dcb870d17e&scene=21#wechat_redirect

Index of /resources

• 语音识别书籍和学习资料推荐
1、语音识别书籍
（1）《语音信号处理》韩纪庆张磊著
主要特点：包含了大量语音信号相关的基础知识，以及智能语音的几个主要方向，适合广泛阅读和了解。
推荐指数：★★★★☆
（2）《语音识别原理与应用》洪青阳李琳著
主要特点：详细介绍了语音识别相关系统，包括宜些历史发展和演进，从HMM到端到端系统都有介绍，以及介绍了一下kaldi和espnet的使用等。
推荐指数：★★★★☆
（3）《kaldi语音识别实践》陈果果都家宇著
主要特点：主要结合了理论和kaldi的实际使用方法，适合入门和kaldi学习使用。
推荐指数：★★★☆☆
（4）《Spoken Language Processing A Guide to Theory Algorithm and System Development》黄学东著
主要特点：语音方向的代表著作，覆盖方向齐全。
推荐指数：★★★☆☆
（5）《解析深度学习语音识别实践》俞栋邓力著，俞凯钱彦旻译
主要特点：对于语音识别传统算法和深度学习算法都有比较详尽的讲解，理论推导较多。
推荐指数：★★☆☆☆
（6）《Speech Recognition Algorithms Using Weighted Finite-State Transducers》
主要特点：详细介绍了WFST相关的知识和理论，需要深入掌握WFST解码的同学非常适合学习。
推荐指数：★★★★☆

2、其他相关博客
（7）《深度学习理论与实战：提高篇》李理著
主要特点：理论与实例结合，有非常简单的代码示例去辅助理论的理解。
推荐指数：★★★★☆
链接：深度学习理论与实战：提高篇 - 李理的博客
http://fancyerii.github.io/2019/03/14/dl-book/
（8）Speech Processing
主要特点：CMU的语音课程
推荐指数：★★★☆☆
链接：http://www.speech.cs.cmu.edu/15-492

CTC理论和实战：http://fancyerii.github.io/books/ctc/
DeepSpeech理论与实战：http://fancyerii.github.io/books/deepspeech/
Kaldi简介：http://fancyerii.github.io/books/kaldi/

3、语音方向书籍：
1、语音信号处理(第二版)_赵力.pdf
2、语音信号处理实验教程.pdf
3、语音信号处理C++版.pdf
4、实用语音识别基础_王炳锡.pdf
5、计算机语音处理_[日]安居院猛.pdf
6、语音处理与编码_张刚、张雪英.pdf
7、语音识别基本原理_[美]Lawrence_R._Rabiner
8、解密复兴科技基于隐马尔科夫模型的时序分析方法.pdf
9、隐Markov模型(HMM及其在语音处理中的应用).pdf
10、语音信号处理_韩纪庆.pdf

11、现代语音信号处理(第四版)_胡航.pdf
12、数字信号处理的原理与应用_[美]L.R.拉宾纳、戈尔德(B. Gold).pdf
13、语音信号线性预测.pdf
14、语音增强理论与实践_[美]罗艾洲.pdf
15、语音增强(Speech Enhancement)_陈景东.pdf
16、计算机语音技术(修订版)_朱民雄、闻新.pdf
17、解析深度学习:语音识别实践_俞栋，邓力.pdf
18、深度学习理论与实战：基础篇_李理.pdf
19、深度学习理论与实战：提高篇_李理.pdf
20、应用模式识别技术导论人脸识别与语音识别.pdf

21、数字信号处理理论与应用(第3版).pdf
22、音乐的数字信号处理：一种计算机听觉的视角.pdf
23、神经网络与信号分析_余英林，李海洲著.pdf
24、数字语音处理及MATLAB仿真_张雪英.pdf
25、MATLAB在语音信号分析与合成中的应用_宋知用.pdf
26、MATLAB数字信号处理_王彬、于丹、汪洋.pdf
27、MATLAB扩展编程.pdf
28、Windows声音应用程序开发指南_张新宇.pdf
29、Visual C++多媒体特效制作百例.pdf
30、Visual C++实践与提高多媒体篇.pdf
31、Visual C++6.0多媒体开发指南_李博轩.pdf
32、Visual C++.NET多媒体应用开发技术.pdf

33、藏语模式识别技术及工程实践_欧珠.pdf
34、数字信号处理的并行算法
35、数字音频规范与程序设计基于Visual C++开发.pdf