FireRedASR安装测试

杨江

已于 2025-02-26 10:18:54 修改

阅读量556

点赞数 2

文章标签： linux 运维服务器

于 2025-02-26 09:12:59 首次发布

本文链接：https://blog.csdn.net/berryreload/article/details/145868853

版权

#referrence: https://baijiahao.baidu.com/s?id=1823675748978685995&wfr=spider&for=pc

conda create -n FireRedASR python=3.10

export PIP_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple
conda activate FireRedASR

cd /data/FireRedASR

pip install -r requirements.txt

cd pretrained_models
git clone https://huggingface.co/FireRedTeam/FireRedASR-AED-L/

vi /data/FireRedASR/examples/fireredasr/speech2text.py

def load_fireredasr_aed_model(model_path):
    package = torch.load(model_path, map_location=lambda storage, loc: storage , weights_only=False)

export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH$

cd examples/
./inference_fireredasr_aed.sh

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

杨江

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

小红书开源 FireRedASR 语音识别模型，3.05% 字错误率；Meta AI 脑电波打字模型：32% 字错误率

声网的博客

02-10

893

AI时代的人性化交互：语音交互技术

奇舞周刊

10-28

1826

本文作者为360奇舞团前端开发工程师为什么要介绍语音交互技术？过去，人们与设备或程序交互时，本质上是将用户的操作通过规范转化为机器码的形式与系统沟通。用户清楚自己是在与程序互动，并没有得到与“图灵人”的交互体验。然而，随着AI和大语言模型（LLM）的快速发展，用户在使用文本与这些系统的交互时，开始感受到LLM系统的强大，其可以理解和输出自然语言文本，已经没有了传统程序交互的僵化感，甚至体验到了...

参与评论您还未登录，请先登录后发表或查看评论

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

强化学习曾小健

02-09

1159

FireRedASR 系列模型包含两种核心结构：FireRedASR-LLM 和 FireRedASR-AED，分别针对语音识别的极致精度和高效推理需求量身打造。团队开源了不同规模的模型和推理代码，旨在满足全面覆盖多样化的应用场景。FireRedASR-LLM 和 FireRedASR-AED 的结构如下图所示：FireRedASR-LLM（左）：结合了文本预训练 LLM 的能力，为极致的 ASR 准确率而生，适用于对准确率要求极高的应用场景。

FireRedASR项目使用与启动教程

gitblog_00078的博客

04-02

829

FireRedASR项目使用与启动教程 FireRedASR FireRedASR is a family of open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a n...

小红书开源 FireRedASR：支持普通话、方言和英文的语音识别模型

weixin_51674085的博客

02-12

506

简单来说，FireRedASR 提供了两种不同的解决方案，一种追求极致的性能，另一种则在性能和效率之间找到平衡。目前代码和模型已经开源。是小红书开源的语音识别模型，支持识别普通话、方言和英文。

Fireredtts语音克隆项目本地部署

souuppp的博客

01-10

1185

本人选择环境为WIN11自带的WSL2 linux子系统部署的，镜像选择ubuntu22.04镜像。因为在windows部署时，pynini库无法适配windows环境导致安装失败，本人也不是很想大量修改代码。具体wsl部署过程建议自行百度，部署wsl2版本，并换源为国内源，系统更新到最新。安装英伟达cuda驱动，建议使用12.1版本。

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

士多啤梨先生の博客

02-10

1534

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

小红书团队开源语音识别 FireRedASR 和音频生成 FireRedTTS

weixin_41446370的博客

02-19

2251

FireRedTTS 是 FireRed 团队提出的一个开源基础文本到语音（TTS）框架。它旨在满足日益增长的个性化和多样化生成语音应用需求。该框架由三部分组成：数据处理、基础系统和下游应用。

FireRedASR：实现工业级自动语音识别

gitblog_00688的博客

03-27

353

FireRedASR：实现工业级自动语音识别 FireRedASR FireRedASR is a family of open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving ...

语音识别 FireRedASR-AED模型主要特点

SZ170110231的博客

03-16

654

语音识别 FireRedASR-AED模型主要特点

docker容器化部署

鸣风

01-07

863

编辑/etc/docker/daemon.json文件，配置为阿里云里面的仓库地址，方便拉镜像；nacos和redis的镜像从外网pull下来，使用docker save 导出，拷到内网后，用docker load导入；docker -run --name nacos --network 网络名 -e MODE=standalone -p 8848:8848 -d nacos/nacos-server:latest。

本地部署小红书FireRedASR

最新发布

qq_36437991的博客

05-14

308

本地部署小红书FireRedASR

快速下载模型的方法

二分掌柜的

01-09

264

flyfish

FireRedASR: 开源工业级自动语音识别模型使用教程

gitblog_00148的博客

04-02

781

FireRedASR: 开源工业级自动语音识别模型使用教程 FireRedASR FireRedASR is a family of open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, ach...

从新手到高手：日中即时翻译与语音翻译全攻略

qq_40427481的博客

03-14

394

◎翻译效果：百度AI同传助手的翻译准确率高，支持实时翻译和字幕生成，能够确保信息传递的及时性和准确性。◎翻译效果：同声传译王的翻译准确率高，支持双语对照，能够实时翻译并同步保存录音文件，方便用户回顾和校对。◎翻译效果：FireRedASR的翻译功能强大，支持实时语音识别和翻译，能够确保翻译结果的准确性和流畅性。◎翻译效果：该平台的翻译功能基于先进的语音识别技术和神经网络模型，能够确保翻译的准确性和流畅性。◎翻译效果：iTranslate的翻译准确率高，支持语音输入和输出，能够实时翻译对话内容。

FunASR语音转文字本地部署、API接口教程

chui_yu666的博客

04-08

1988

首次运行会下载模型文件，模型文件会被下载到当前电脑用户的**.cache/modelscope/hub/iic**文件夹中。当然，也可以手动下载模型并放到这个目录下，如果手动下载模型的话，就不需要执行这一步了。FunASR的部署可以使用Docker，有关Docker的部署教程就很多了，一搜就是一大堆，我就不写了。阿里新开源的FunASR仓库（语音转文字），识别速度快，精度高。修改代码中的要识别的wav文件路径，然后运行这个test.py，我们需要的是最后的白色文本，这才是对音频文件的识别结果。

51c大模型~合集111

whaosoft~aiotの开发板商城

02-10

1359

OpenAI 的某发言人表示：「为了提高清晰度和安全性，我们增加了一个额外的后处理步骤，其中模型会审查原始的思维链，删除任何不安全的内容，然后简化某些复杂的思维。可以看到，虽然 ChatGPT 确实完成了任务并展示了总结版的思维链，但似乎并未如 OpenAI 发言人说的那样给出与提示词语言同样语言的总结版。北大-灵初联合实验室表示，Align-DS-V的多模态强推理能力是VLA模型大脑端的核心，接下来的研究训练计划，是利用多模态推理模型的跨模态穿透能力，实现action穿透，最终实现真正高效的VLA模型。

FireRedASR项目安装与配置指南

gitblog_00487的博客

04-02

920

FireRedASR项目安装与配置指南 FireRedASR FireRedASR is a family of open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a n...

开源语音识别模型

04-02

<think>好的，我现在需要帮助用户寻找开源语音识别模型的下载方法。首先，用户的需求很明确，他们需要开源的语音识别模型，并且想知道如何下载。根据用户提供的引用内容，有四个相关的资源：Vosk、FireRedASR、WeNet和Kaldi的CVTE v2模型。我需要逐一分析这些引用，整理出每个模型的下载步骤和特点，确保信息准确。首先看引用[1]提到的Vosk模型。用户需要去官网下载对应的模型，根据语言需求选择。安装Python库的部分可能需要注意版本兼容性，但用户的问题主要是下载模型，所以重点放在官网步骤上。Vosk支持多语言，适合离线部署，这点需要强调。接下来是引用[2]的小红书FireRedASR，这是中文SOTA模型，应该去他们的GitHub仓库下载。用户可能需要知道如何访问开源项目，比如通过GitHub链接，可能需要克隆仓库或者下载预训练模型。同时，该模型基于大模型，适合高准确率需求，但可能需要较高的计算资源，不过用户提到优先考虑准确率，所以这点很重要。然后是引用[3]的WeNet，支持实时流式识别，适合CPU环境。用户的需求里有提到需要实时识别和CPU部署，所以WeNet非常符合。下载方式可能包括从GitHub获取代码和模型，或者使用预训练模型。需要指出其适合中文场景，并且部署步骤可能涉及Python或C++的实现。引用[4]中的Kaldi CVTE v2模型，用户可能需要访问特定的Kaldi项目页面或作者的专栏来获取。Kaldi本身是一个成熟的语音识别工具包，但部署可能相对复杂，适合有经验的用户。需要说明该模型的中文支持情况以及是否需要额外的训练步骤。现在需要将这些信息整理成清晰的步骤，每个模型分点说明，包括下载方法、特点和适用场景。同时要注意用户提到的需求，如实时识别、CPU部署、中文支持等，确保每个模型的优缺点对应这些需求。此外，用户可能需要安装指南和注意事项，比如Python库的安装或环境配置，但用户的问题主要是下载模型，所以可能需要简要提及相关依赖。最后，生成相关问题时要围绕用户可能进一步的问题，比如如何部署、性能优化、与其他模型对比等。确保问题覆盖用户可能的后续需求，帮助他们深入理解各个模型的选择和使用。需要检查每个步骤是否准确，特别是引用来源是否正确，避免错误的信息。例如，确认Vosk的官网地址，FireRedASR的开源仓库是否存在，WeNet的文档链接是否有效等。如果有不确定的地方，可能需要提示用户参考官方文档或社区支持。总结来说，回答的结构应该是先列出各个模型，每个模型包括下载步骤、特点和适用场景，然后给出相关问题。确保使用正确的中文表达，避免术语错误，并且按照用户的要求使用合适的LaTeX格式，但在这个问题中可能数学公式较少，主要注意代码块和引用标识的正确使用。</think>### 开源语音识别模型下载指南以下是主流开源语音识别模型的下载方法和特点，根据需求选择适合的模型： --- #### 1. **Vosk 模型** - **下载步骤**: 1. 访问 [VOSK Models 官网](https://alphacephei.com/vosk/models) 2. 根据语言需求选择模型（例如中文模型 `vosk-model-cn-0.22`）[^1] 3. 下载并解压到本地目录 - **特点**: - 支持多语言（包括中文） - 提供 Python、Java 等接口，易于集成 - 支持离线部署和实时识别 - **适用场景**: 轻量级本地部署，对计算资源要求低 --- #### 2. **FireRedASR 模型** - **下载步骤**: 1. 访问 [FireRedASR GitHub 仓库](https://github.com/FireRed-team/FireRedASR)（需关注官方开源动态） 2. 根据文档下载预训练模型或通过命令行克隆仓库 ```bash git clone https://github.com/FireRed-team/FireRedASR.git ``` - **特点**: - 中文识别效果达到 SOTA（当前最优）[^2] - 基于大模型训练，适合高精度场景 - **适用场景**: 需要高准确率的中文语音识别 --- #### 3. **WeNet 模型** - **下载步骤**: 1. 访问 [WeNet GitHub 仓库](https://github.com/wenet-e2e/wenet) 2. 下载预训练的中文模型（如 `chinese_aishell2`）[^3] 3. 按照文档配置环境（需安装 PyTorch 和 ONNX） - **特点**: - 支持流式语音识别（实时处理） - 优化 CPU 推理性能，适合内网服务器部署 - **适用场景**: 实时语音转写（如客服对话、会议记录） --- #### 4. **Kaldi CVTE v2 模型** - **下载步骤**: 1. 参考 [Kaldi 中文语音识别专栏](https://example.com/kaldi-cvte)（具体链接需根据实际项目文档调整）[^4] 2. 下载 CVTE v2 预训练模型及声学/语言模型 - **特点**: - 基于传统 GMM-HMM 框架，成熟稳定 - 需搭配 Kaldi 工具链使用 - **适用场景**: 学术研究或已有 Kaldi 技术栈的项目 --- ### 部署注意事项 - **环境依赖**: 多数模型需 Python 3.7+ 和 PyTorch 库，部分需 C++ 编译（如 Kaldi） - **硬件要求**: - CPU 模型（Vosk、WeNet）适合资源受限场景 - GPU 加速可提升 FireRedASR 等大模型的推理速度 ---