ubuntu编译kaldi和vosk

山河君

已于 2025-04-02 09:18:02 修改

阅读量1.8k

点赞数 30

分类专栏：语音识别文章标签：音视频语音识别

于 2024-10-18 15:51:08 首次发布

本文链接：https://blog.csdn.net/qq_42956179/article/details/143023627

版权

文章目录

前言
一、开源框架的选取
二、kaldi编译
三、编译vosk
- 方案一
- 方案二

前言

由于工作需要语音识别的功能，环境是在linux arm版上，所以想先在ubuntu上跑起来看一看，就找了一下语音识别的开源框架，选中了vosk这个开源库，但是依赖kaldi，网上对于kaldi介绍的很多，但是没有结合vosk的，这里记录一下。

|版本声明：山河君，未经博主允许，禁止转载

一、开源框架的选取

Kaldi
简介: Kaldi 是一个广泛使用的开源语音识别库，支持深度学习，性能非常强大。适用于研究和工业应用。
特点:
提供丰富的语音识别工具集。
支持多种模型格式，包括基于时间延迟神经网络（TDNN）和 LSTM 的模型。
支持多平台，兼容 ARM64，但需要编译和调整。
链接: Kaldi
Vosk
简介: Vosk 是基于 Kaldi 的语音识别引擎，提供了更简单的 API，并且支持多种语言。Vosk 还适用于资源有限的设备。
特点:
提供流式语音识别。
占用内存较小，适合在 ARM64 平台上使用。
支持多语言模型。
链接: Vosk
PocketSphinx
简介: 这是 CMU Sphinx 项目的轻量级版本，针对嵌入式系统和移动设备进行了优化。
特点:
适合资源受限的环境，如 ARM64。
提供了基础语音识别功能，支持自定义语言模型。
占用资源少，安装简单。
链接: PocketSphinx
DeepSpeech
简介: Mozilla 的 DeepSpeech 是一个基于深度学习的语音识别引擎，使用卷积神经网络来提供语音识别能力。
特点:
开源的 STT（语音转文本）引擎，基于百度的 DeepSpeech 研究。
性能较好，但资源消耗相对较高，需要较强的硬件资源。
可以在 ARM64 上编译和运行，但要确保计算能力足够。
链接: DeepSpeech
Julius
简介: Julius 是一个开源的大词汇量语音识别引擎，主要面向研究用途，但也支持嵌入式设备。
特点:
支持连续语音识别。
占用资源少，适合 ARM64 平台。
提供 C++ 接口，支持定制模型。
链接: Julius

二、kaldi编译

安装依赖

sudo apt-get update
sudo apt-get install git make automake autoconf sox libatlas-base-dev gfortran subversion python3

下载

git clone https://github.com/kaldi-asr/kaldi.git
cd kaldi

编译工具

cd tools
make

编译源码

最低0.47元/天解锁文章