第一章 基于Ubuntu 24.04 搭建wenet语音转文字

2 篇文章 0 订阅

系列文章目录

第一章 基于Ubuntu 24.04 搭建wenet语音转文字
第二章 编译运行Android Wenet语音识别



前言

环境:Ubuntu 24.04+python3.12


一、Wenet是什么?

WeNet是出门问问语音团队联合西工大语音实验室开源的一款面向工业落地应用的语音识别工具包,该工具用一套简洁的方案提供了语音识别从训练到部署的一条龙服务,其主要特点如下:

使用conformer网络结构和CTC/attention  loss联合优化方法,具有业界一流的识别效果。

提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。

框架简洁,模型训练部分完全基于pytorch生态,不依赖于kaldi等安装复杂的工具。

详细的注释和文档,十分适合用于学习端到端语音识别的基础知识和实现细节。

Wenet项目地址:https://github.com/wenet-e2e/wenet

二、使用步骤

1.开发安装

在终端中执行

git clone https://github.com/wenet-e2e/wenet.git
cd wenet
pip install -e .

执行pip install -e .提示错误:

error: externally-managed-environment

× This environment is externally managed
╰─> To install Python packages system-wide, try apt install
    python3-xyz, where xyz is the package you are trying to
    install.
    
    If you wish to install a non-Debian-packaged Python package,
    create a virtual environment using python3 -m venv path/to/venv.
    Then use path/to/venv/bin/python and path/to/venv/bin/pip. Make
    sure you have python3-full installed.
    
    If you wish to install a non-Debian packaged Python application,
    it may be easiest to use pipx install xyz, which will manage a
    virtual environment for you. Make sure you have pipx installed.
    
    See /usr/share/doc/python3.12/README.venv for more information.

note: If you believe this is a mistake, please contact your Python installation or OS distribution provider. You can override this, at the risk of breaking your Python installation or OS, by passing --break-system-packages.
hint: See PEP 668 for the detailed specification.

这个错误信息表示当前Python环境是由系统外部管理的,通常在某些Linux发行版中(尤其是Debian和基于Debian的系统,比如Ubuntu),系统会强烈建议不要直接使用pip来安装包,以避免与系统包管理器(如apt)的潜在冲突。

解决方案是创建一个虚拟环境,在该环境中可以自由地使用pip安装任何包而不影响系统级别的Python环境。

# 安装python3-venv包,如果还没安装的话
sudo apt install python3-venv

# 创建一个新的虚拟环境
python3 -m venv myenv

# 激活虚拟环境
source myenv/bin/activate

# 现在你可以在虚拟环境中进行安装
pip install -e .

等待下载完成,最后提示安装成功。

在这里插入图片描述

终端内识别音频文件,首次运行会下载 wenetspeech_u2pp_conformer_libtorch.tar.gz

wenet --language chinese audio.wav

识别结果

{'text': '们使用方法扫一扫下载暗学郎被软件注册绑定即可实时接收宝贝在园信息', 'confidence': 0.4810276732848742}

2.AAC转换为WAV文件

手机录音后文件为.aac文件,而wenet不支持此格式,需要转换为wav文件;
在Ubuntu上,你可以使用ffmpeg这个强大的多媒体处理工具来将AAC文件转换为WAV文件。首先,确保你已经安装了ffmpeg。如果没有安装,可以通过以下命令安装:

sudo apt update
sudo apt install ffmpeg

安装完成后,你可以使用以下命令将AAC文件转换为WAV文件:

ffmpeg -i input.aac -c:a pcm_s16le -ar 44100 -ac 2 output.wav

这里的参数解释如下:

  • i input.aac:指定输入的AAC文件。
  • c:a pcm_s16le:指定音频编码器为PCM 16位小端格式。
  • ar 44100:设置采样率为44100 Hz。
  • ac 2:设置声道数为2(立体声)。
  • output.wav:输出的WAV文件名。

确保替换input.aac和output.wav为你的实际文件名。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了wenet的基本搭建与使用,识别准确率还有待提高,替换更好的训练模型数据。

参考:
https://wenet.org.cn/wenet/python_package.html
https://blog.csdn.net/iblade/article/details/135002063

  • 23
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Ubuntu 24.04是一款基于Linux的操作系统,下面是安装Ubuntu 24.04的步骤: 1. 下载Ubuntu 24.04的镜像文件:你可以从Ubuntu官方网站上下载最新的Ubuntu 24.04镜像文件。确保选择与你的计算机架构(32位或64位)相匹配的版本。 2. 制作启动盘:将下载的镜像文件写入USB闪存驱动器或者光盘。你可以使用一些工具如Rufus、Etcher等来制作启动盘。 3. 启动计算机:将制作好的启动盘插入计算机,并重启计算机。确保在计算机启动时选择从USB或光盘启动。 4. 选择安装方式:在启动时,你将看到一个安装界面。选择“Install Ubuntu”以开始安装过程。 5. 选择语言和键盘布局:在安装过程中,你需要选择你喜欢的语言和键盘布局。 6. 安装类型:在安装类型中,你可以选择“Erase disk and install Ubuntu”以清除整个硬盘并安装Ubuntu,或者选择“Something else”以手动分区。 7. 创建用户账户:在安装过程中,你需要设置一个用户名和密码,这将成为你登录Ubuntu时使用的账户。 8. 安装:完成上述步骤后,点击“Install”按钮开始安装Ubuntu 24.04。安装过程可能需要一些时间,请耐心等待。 9. 完成安装:安装完成后,你将看到一个提示窗口。点击“Restart Now”以重新启动计算机。 10. 登录Ubuntu:在计算机重新启动后,你将看到登录界面。输入之前设置的用户名和密码以登录Ubuntu。 希望以上步骤对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

两块三刀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值