FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 FireRedASR 这个小红书开源的工业级自动语音识别模型。

🚀 快速阅读

FireRedASR 是小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语。该模型在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),并在歌词识别方面表现出色。

  1. 核心功能:FireRedASR 包含两个版本,FireRedASR-LLM 采用 Encoder-Adapter-LLM 框架,专注于极致的语音识别精度;FireRedASR-AED 采用基于注意力的编码器-解码器架构,平衡了高准确率与推理效率。
  2. 技术原理:FireRedASR-LLM 结合了大型语言模型(LLM)的能力,实现 SOTA 性能;FireRedASR-AED 利用经典的 AED 架构,确保高效推理。

FireRedASR 是什么

FireRedASR

FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语。它在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),并在歌词识别方面表现出色。模型家族包含两个主要版本:

  • FireRedASR-LLM:采用 Encoder-Adapter-LLM 框架,基于大型语言模型(LLM)的能力,实现 SOTA 性能,支持无缝端到端语音交互。在普通话基准测试中平均字符错误率(CER)为 3.05%,相比之前的 SOTA 模型(3.33%)降低了 8.4%。

  • FireRedASR-AED:采用基于注意力的编码器-解码器(AED)架构,平衡高性能和计算效率,可作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。

FireRedASR 的主要功能

  • 高精度语音识别:FireRedASR 包含两个版本,FireRedASR-LLM 采用 Encoder-Adapter-LLM 框架,专注于极致的语音识别精度;FireRedASR-AED 采用基于注意力的编码器-解码器架构,平衡了高准确率与推理效率。
  • 高效推理:FireRedASR-AED 参数量为 1.1B,平衡了高准确率与推理效率,适用于多种应用场景。
  • 多场景适配:FireRedASR 在短视频、直播、语音输入和智能助手等多种日常场景下表现出色,与业内领先的 ASR 服务提供商和 Paraformer-Large 相比,CER 相对降低 23.7%~40.0%。
  • 歌词识别能力:在歌词识别场景中,FireRedASR-LLM 的 CER 实现了 50.2%~66.7% 的相对降低,展现了极强的适配能力。
  • 多语言支持:FireRedASR 支持普通话,在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。
  • 开源与社区支持:FireRedASR 的模型和推理代码均已开源,推动语音识别技术的社区驱动改进和学术研究。

FireRedASR 的技术原理

FireRedASR-LLM

  • Conformer 基础编码器:负责提取语音特征,生成连续的语音表示。
  • 轻量级适配器:将编码器的输出转换为与 LLM 语义空间匹配的表示。
  • 预训练文本 LLM:基于 Qwen2-7B-Instruct 初始化,用于生成最终的文本输出。
  • 训练策略:在训练过程中,编码器和适配器是可训练的,LLM 的大部分参数保持固定,仅通过 Low-Rank Adaptation(LoRA)进行微调。确保编码器和适配器能有效地将语音特征映射到 LLM 的语义空间,同时保留 LLM 的预训练能力。
  • 输入与推理:在推理时,输入包括提示(prompt)和语音,LLM 执行 next-token-prediction,生成识别文本。

FireRedASR-AED

  • Conformer 编码器:基于 Conformer 模型处理语音特征,能同时捕捉局部和全局依赖关系。
  • Transformer 解码器:采用 Transformer 架构进行序列转换,包含多头自注意力模块和前馈模块。
  • 输入特征:输入特征为 80 维的 log Mel 滤波器组,经过全局均值和方差归一化处理。
  • 训练数据:训练数据包含约 7 万小时的高质量普通话音频数据,以及约 1.1 万小时的英语音频数据。

如何运行 FireRedASR

1. 设置环境

创建一个 Python 环境并安装依赖项:

$ git clone https://github.com/FireRedTeam/FireRedASR.git
$ conda create --name fireredasr python=3.10
$ pip install -r requirements.txt

设置 Linux PATH 和 PYTHONPATH:

$ export PATH=$PWD/fireredasr/:$PWD/fireredasr/utils/:$PATH
$ export PYTHONPATH=$PWD/:$PYTHONPATH

将音频转换为 16kHz 16-bit PCM 格式:

ffmpeg -i input_audio -ar 16000 -ac 1 -acodec pcm_s16le -f wav output.wav
2. 快速启动

运行示例脚本:

$ cd examples/
$ bash inference_fireredasr_aed.sh
$ bash inference_fireredasr_llm.sh
3. 命令行使用

查看帮助信息:

$ speech2text.py --help

使用 AED 模型进行语音识别:

$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "aed" --model_dir pretrained_models/FireRedASR-AED-L

使用 LLM 模型进行语音识别:

$ speech2text.py --wav_path examples/wav/BAC009S0764W0121.wav --asr_type "llm" --model_dir pretrained_models/FireRedASR-LLM-L
4. Python 使用
from fireredasr.models.fireredasr import FireRedAsr

batch_uttid = ["BAC009S0764W0121"]
batch_wav_path = ["examples/wav/BAC009S0764W0121.wav"]

# 使用 FireRedASR-AED
model = FireRedAsr.from_pretrained("aed", "pretrained_models/FireRedASR-AED-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "nbest": 1,
        "decode_max_len": 0,
        "softmax_smoothing": 1.0,
        "aed_length_penalty": 0.0,
        "eos_penalty": 1.0
    }
)
print(results)

# 使用 FireRedASR-LLM
model = FireRedAsr.from_pretrained("llm", "pretrained_models/FireRedASR-LLM-L")
results = model.transcribe(
    batch_uttid,
    batch_wav_path,
    {
        "use_gpu": 1,
        "beam_size": 3,
        "decode_max_len": 0,
        "decode_min_len": 0,
        "repetition_penalty": 1.0,
        "llm_length_penalty": 0.0,
        "temperature": 1.0
    }
)
print(results)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

<think>好的,我现在需要帮助用户寻找开源语音识别模型的下载方法。首先,用户的需求很明确,他们需要开源语音识别模型,并且想知道如何下载。根据用户提供的引用内容,有四个相关的资源:Vosk、FireRedASR、WeNetKaldi的CVTE v2模型。我需要逐一分析这些引用,整理出每个模型的下载步骤特点,确保信息准确。 首先看引用[1]提到的Vosk模型。用户需要去官网下载对应的模型,根据语言需求选择。安装Python库的部分可能需要注意版本兼容性,但用户的问题主要是下载模型,所以重点放在官网步骤上。Vosk支持多语言,适合离线部署,这点需要强调。 接下来是引用[2]的小红书FireRedASR,这是中文SOTA模型,应该去他们的GitHub仓库下载。用户可能需要知道如何访问开源项目,比如通过GitHub链接,可能需要克隆仓库或者下载预训练模型。同时,该模型基于大模型,适合高准确率需求,但可能需要较高的计算资源,不过用户提到优先考虑准确率,所以这点很重要。 然后是引用[3]的WeNet,支持实时流式识别,适合CPU环境。用户的需求里有提到需要实时识别CPU部署,所以WeNet非常符合。下载方式可能包括从GitHub获取代码模型,或者使用预训练模型。需要指出其适合中文场景,并且部署步骤可能涉及Python或C++的实现。 引用[4]中的Kaldi CVTE v2模型,用户可能需要访问特定的Kaldi项目页面或作者的专栏来获取。Kaldi本身是一个成熟的语音识别工具包,但部署可能相对复杂,适合有经验的用户。需要说明该模型的中文支持情况以及是否需要额外的训练步骤。 现在需要将这些信息整理成清晰的步骤,每个模型分点说明,包括下载方法、特点适用场景。同时要注意用户提到的需求,如实时识别、CPU部署、中文支持等,确保每个模型的优缺点对应这些需求。此外,用户可能需要安装指南注意事项,比如Python库的安装或环境配置,但用户的问题主要是下载模型,所以可能需要简要提及相关依赖。 最后,生成相关问题时要围绕用户可能进一步的问题,比如如何部署、性能优化、与其他模型对比等。确保问题覆盖用户可能的后续需求,帮助他们深入理解各个模型的选择使用。 需要检查每个步骤是否准确,特别是引用来源是否正确,避免错误的信息。例如,确认Vosk的官网地址,FireRedASR开源仓库是否存在,WeNet的文档链接是否有效等。如果有不确定的地方,可能需要提示用户参考官方文档或社区支持。 总结来说,回答的结构应该是先列出各个模型,每个模型包括下载步骤、特点适用场景,然后给出相关问题。确保使用正确的中文表达,避免术语错误,并且按照用户的要求使用合适的LaTeX格式,但在这个问题中可能数学公式较少,主要注意代码块引用标识的正确使用。</think>### 开源语音识别模型下载指南 以下是主流开源语音识别模型的下载方法特点,根据需求选择适合的模型: --- #### 1. **Vosk 模型** - **下载步骤**: 1. 访问 [VOSK Models 官网](https://alphacephei.com/vosk/models) 2. 根据语言需求选择模型(例如中文模型 `vosk-model-cn-0.22`)[^1] 3. 下载并解压到本地目录 - **特点**: - 支持多语言(包括中文) - 提供 Python、Java 等接口,易于集成 - 支持离线部署实时识别 - **适用场景**: 轻量级本地部署,对计算资源要求低 --- #### 2. **FireRedASR 模型** - **下载步骤**: 1. 访问 [FireRedASR GitHub 仓库](https://github.com/FireRed-team/FireRedASR)(需关注官方开源动态) 2. 根据文档下载预训练模型或通过命令行克隆仓库 ```bash git clone https://github.com/FireRed-team/FireRedASR.git ``` - **特点**: - 中文识别效果达到 SOTA(当前最优)[^2] - 基于大模型训练,适合高精度场景 - **适用场景**: 需要高准确率的中文语音识别 --- #### 3. **WeNet 模型** - **下载步骤**: 1. 访问 [WeNet GitHub 仓库](https://github.com/wenet-e2e/wenet) 2. 下载预训练的中文模型(如 `chinese_aishell2`)[^3] 3. 按照文档配置环境(需安装 PyTorch ONNX) - **特点**: - 支持流式语音识别(实时处理) - 优化 CPU 推理性能,适合内网服务器部署 - **适用场景**: 实时语音转写(如客服对话、会议记录) --- #### 4. **Kaldi CVTE v2 模型** - **下载步骤**: 1. 参考 [Kaldi 中文语音识别专栏](https://example.com/kaldi-cvte)(具体链接需根据实际项目文档调整)[^4] 2. 下载 CVTE v2 预训练模型及声学/语言模型 - **特点**: - 基于传统 GMM-HMM 框架,成熟稳定 - 需搭配 Kaldi 工具链使用 - **适用场景**: 学术研究或已有 Kaldi 技术栈的项目 --- ### 部署注意事项 - **环境依赖**: 多数模型需 Python 3.7+ PyTorch 库,部分需 C++ 编译(如 Kaldi) - **硬件要求**: - CPU 模型(Vosk、WeNet)适合资源受限场景 - GPU 加速可提升 FireRedASR 等大模型的推理速度 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值