ubuntu编译kaldi和vosk


前言

由于工作需要语音识别的功能,环境是在linux arm版上,所以想先在ubuntu上跑起来看一看,就找了一下语音识别的开源框架,选中了vosk这个开源库,但是依赖kaldi,网上对于kaldi介绍的很多,但是没有结合vosk的,这里记录一下。

|版本声明:山河君,未经博主允许,禁止转载

一、开源框架的选取

  1. Kaldi
    简介: Kaldi 是一个广泛使用的开源语音识别库,支持深度学习,性能非常强大。适用于研究和工业应用。
    特点:
    提供丰富的语音识别工具集。
    支持多种模型格式,包括基于时间延迟神经网络(TDNN)和 LSTM 的模型。
    支持多平台,兼容 ARM64,但需要编译和调整。
    链接: Kaldi

  2. Vosk
    简介: Vosk 是基于 Kaldi 的语音识别引擎,提供了更简单的 API,并且支持多种语言。Vosk 还适用于资源有限的设备。
    特点:
    提供流式语音识别。
    占用内存较小,适合在 ARM64 平台上使用。
    支持多语言模型。
    链接: Vosk

  3. PocketSphinx
    简介: 这是 CMU Sphinx 项目的轻量级版本,针对嵌入式系统和移动设备进行了优化。
    特点:
    适合资源受限的环境,如 ARM64。
    提供了基础语音识别功能,支持自定义语言模型。
    占用资源少,安装简单。
    链接: PocketSphinx

  4. DeepSpeech
    简介: Mozilla 的 DeepSpeech 是一个基于深度学习的语音识别引擎,使用卷积神经网络来提供语音识别能力。
    特点:
    开源的 STT(语音转文本)引擎,基于百度的 DeepSpeech 研究。
    性能较好,但资源消耗相对较高,需要较强的硬件资源。
    可以在 ARM64 上编译和运行,但要确保计算能力足够。
    链接: DeepSpeech

  5. Julius
    简介: Julius 是一个开源的大词汇量语音识别引擎,主要面向研究用途,但也支持嵌入式设备。
    特点:
    支持连续语音识别。
    占用资源少,适合 ARM64 平台。
    提供 C++ 接口,支持定制模型。
    链接: Julius

二、kaldi编译

  1. 安装依赖
sudo apt-get update
sudo apt-get install git make automake autoconf sox libatlas-base-dev gfortran subversion python3
  1. 下载
git clone https://github.com/kaldi-asr/kaldi.git
cd kaldi
  1. 编译工具
cd tools
make
  1. 编译源码

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值