NLP之ASR之FunASR:FunASR(端到端语音识别工具包)的简介、安装和使用方法、案例应用之详细攻略

NLP之ASR之FunASR:FunASR(端到端语音识别工具包)的简介、安装和使用方法、案例应用之详细攻略

目录

FunASR的简介

0、更新

1、特点

2、模型列表

FunASR的安装和使用方法

1、安装

T1、采用pip安装 (推荐)

T2、从源码安装

安装依赖

(可选)安装ModelScope或Huggingface Hub用于预训练模型

2、使用方法

T1、命令行使用 (以Paraformer-zh模型为例)

T2、Python API 使用 (示例:SenseVoice模型进行语音识别)

3、多种模型案例

语音识别

语音活动检测 (VAD) (非流式和流式)

标点恢复

时间戳预测

语音情感识别

4、模型导出与测试 (ONNX)

命令行用法

Python

测试 ONNX

5、服务部署

FunASR的案例应用


FunASR的简介

FunASR是一个基础的端到端语音识别工具包,旨在架起语音识别学术研究和工业应用之间的桥梁。它支持工业级语音识别模型的训练和微调,方便研究人员和开发者更便捷地进行语音识别模型的研究和生产,促进语音识别生态的发展。其目标是让语音识别变得更有趣(ASR for Fun)!FunASR 提供了语音识别 (ASR)、语音活动检测 (VAD)、标点恢复、语言模型、说话人识别、说话人分段以及多说话人 ASR 等多种功能。并提供方便的脚本和教程,支持预训练模型的推理和微调。
FunASR是一个功能强大且易于使用的端到端语音识别工具包,提供了丰富的预训练模型和方便的API,可以满足多种语音识别任务的需求。 其开源和开放的特性也使其成为一个理想的语音识别研究和开发平台。

GitHub地址https://github.com/modelscope/FunASR

0、更新

最新动态:
2024/10/29:发布实时转录服务 1.12 版本,2pass 离线模式支持 SensevoiceSmall 模型;(文档)
2024/10/10:新增对 Whisper-large-v3-turbo 模型的支持,这是一个能够进行多语言语音识别、语音翻译和语言识别的多任务模型。可以从 ModelScope 和 OpenAI 下载;(文档)
2024/09/26:发布离线文件转录服务 4.6 版本、离线英文文件转录服务 1.7 版本、实时转录服务 1.11 版本,修复内存泄漏问题并支持 SensevoiceSmall onnx 模型;发布文件转录服务 2.0 GPU 版本,修复 GPU 内存泄漏问题;(文档)
2024/09/25:新增关键词识别模型支持。支持对四个模型进行微调和推理:fsmn_kws、fsmn_kws_mt、sanm_kws、sanm_kws_streaming。
2024/07/04:SenseVoice 是一个具备多种语音理解能力的语音基础模型,包括 ASR、LID、SER 和 AED。
2024/07/01:发布离线文件转录服务 GPU 1.1 版本,优化 BladeDISC 模型兼容性问题;参见(文档)2024 年 6 月 27 日:离线文件转录服务 GPU 1.0 版本发布,支持动态批处理和多线程并发。在长音频测试集中,单线程的 RTF 为 0.0076,多线程的加速比为 1200+(与 CPU 上的 330+ 相比);详情请参阅(文档)
2024 年 5 月 15 日:新增支持情感识别模型。emotion2vec+large、emotion2vec+base、emotion2vec+seed。目前支持以下类别:0:愤怒 1:快乐 2:中性 3:悲伤 4:未知。
2024 年 5 月 15 日:离线文件转录服务 4.5 版本、离线英文文件转录服务 1.6 版本、实时转录服务 1.10 版本发布,适配 FunASR 1.0 模型结构;(文档)

1、特点

>> 端到端语音识别:支持多种语音识别任务,包括语音识别、语音活动检测、标点恢复等。
>> 丰富的预训练模型:在ModelScope和Huggingface上发布了大量的学术界和工业界预训练模型,可以通过Model Zoo访问。其中,Paraformer-large模型具有高精度、高效率和方便部署的优势,支持快速构建语音识别服务。
>> 方便的脚本和教程:提供方便易用的脚本和教程,支持模型的推理和微调。
>> 支持多种模型:支持SenseVoice、Paraformer、Whisper、Qwen-Audio等多种模型,涵盖不同任务和语言。
>> 高效的推理和部署:Paraformer-large等模型具有高效率,方便部署,支持快速构建语音识别服务。 并支持多种服务部署方式,包括文件转录服务(CPU/GPU版本)、实时转录服务(CPU版本)等。
>> 多语言支持:支持多种语言的语音识别,包括中文、英文、粤语、日语、韩语等。
>> 开源且开放:FunASR是一个开源项目,其预训练模型在Model License Agreement下可以自由使用、复制、修改和分享。

2、模型列表

FunASR 已开源了大量基于工业数据的预训练模型。您可以在《模型许可协议》的许可下自由使用、复制、修改和分享 FunASR 模型。以下是一些具有代表性的模型,更多模型请参阅模型库。
(注:⭐ 代表 ModelScope 模型库,🤗 代表 Huggingface 模型库,🍀 代表 OpenAI 模型库)

Model NameTask DetailsTraining DataParameters
SenseVoiceSmall
( 🤗 )
multiple speech understanding capabilities, including ASR, ITN, LID, SER, and AED, support languages such as zh, yue, en, ja, ko300000 hours234M
paraformer-zh
( 🤗 )
speech recognition, with timestamps, non-streaming60000 hours, Mandarin220M
paraformer-zh-streaming
 🤗 )
speech recognition, streaming60000 hours, Mandarin220M
paraformer-en
 🤗 )
speech recognition, without timestamps, non-streaming50000 hours, English220M
conformer-en
 🤗 )
speech recognition, non-streaming50000 hours, English220M
ct-punc
 🤗 )
punctuation restoration100M, Mandarin and English290M
fsmn-vad
 🤗 )
voice activity detection5000 hours, Mandarin and English0.4M
fsmn-kws
 )
keyword spotting,streaming5000 hours, Mandarin0.7M
fa-zh
 🤗 )
timestamp prediction5000 hours, Mandarin38M
cam++
 🤗 )
speaker verification/diarization5000 hours7.2M
Whisper-large-v3
( 🍀 )
speech recognition, with timestamps, non-streamingmultilingual1550 M
Whisper-large-v3-turbo
( 🍀 )
speech recognition, with timestamps, non-streamingmultilingual809 M
Qwen-Audio
( 🤗 )
audio-text multimodal models (pretraining)multilingual8B
Qwen-Audio-Chat
( 🤗 )
audio-text multimodal models (chat)multilingual8B
emotion2vec+large
( 🤗 )
speech emotion recongintion40000 hours300M

FunASR的安装和使用方法

1、安装

T1、采用pip安装 (推荐)

pip3 install -U funasr

T2、从源码安装

git clone https://github.com/modelscope/FunASR.git
cd FunASR

安装依赖

pip3 install -e ./

(可选)安装ModelScope或Huggingface Hub用于预训练模型

pip3 install -U modelscope huggingface_hub

2、使用方法

FunASR 提供了命令行和 Python API 两种使用方法。以下是一些示例:

T1、命令行使用 (以Paraformer-zh模型为例)

funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=asr_example_zh.wav

此命令使用Paraformer-zh模型进行语音识别,并启用VAD和标点恢复功能,输入音频文件为asr_example_zh.wav。

T2、Python API 使用 (示例:SenseVoice模型进行语音识别)

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"
model = AutoModel(model=model_dir, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time":30000}, device="cuda:0")
res = model.generate(input=f"{model.model_path}/example/en.mp3", cache={}, language="auto", use_itn=True, batch_size_s=60, merge_vad=True)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

这段代码加载SenseVoiceSmall模型,并使用它来处理音频文件en.mp3。 代码中详细解释了各个参数的含义,例如vad_model、vad_kwargs、use_itn、batch_size_s、merge_vad等。

3、多种模型案例

FunASR 提供了多种模型,可以用于不同的语音识别任务:

语音识别

语音识别 (非流式):使用Paraformer-zh等模型进行非流式语音识别。

语音识别 (流式):使用Paraformer-zh-streaming等模型进行流式语音识别,并可配置chunk_size参数控制流式延迟。

from funasr import AutoModel

chunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel(model="paraformer-zh-streaming")

import soundfile
import os

wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960 # 600ms

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)

语音活动检测 (VAD) (非流式和流式)

使用fsmn-vad模型进行语音活动检测,输出结果为有效音频片段的起始和结束时间。

from funasr import AutoModel

model = AutoModel(model="fsmn-vad")
wav_file = f"{model.model_path}/example/vad_example.wav"
res = model.generate(input=wav_file)
print(res)

标点恢复

使用ct-punc模型对文本进行标点恢复。

from funasr import AutoModel

model = AutoModel(model="ct-punc")
res = model.generate(input="那今天的会就到这里吧 happy new year 明年见")
print(res)

时间戳预测

使用fa-zh模型进行时间戳预测。

from funasr import AutoModel

model = AutoModel(model="fa-zh")
wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/text.txt"
res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
print(res)

语音情感识别

使用emotion2vec+large等模型进行语音情感识别。

from funasr import AutoModel

model = AutoModel(model="emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"

res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)

4、模型导出与测试 (ONNX)

FunASR支持将模型导出为ONNX格式,并提供相应的测试工具。 可以通过命令行或Python API进行导出和测试。

命令行用法

funasr-export ++model=paraformer ++quantize=false ++device=cpu

Python

from funasr import AutoModel

model = AutoModel(model="paraformer", device="cpu")

res = model.export(quantize=False)

测试 ONNX

# pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer(model_dir, batch_size=1, quantize=True)

wav_path = ['~/.cache/modelscope/hub/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav']

result = model(wav_path)
print(result)

5、服务部署

FunASR 支持将预训练或微调后的模型部署为服务,目前支持文件转录服务(中文、英文,CPU/GPU版本)和实时转录服务(中文,CPU版本)。 更多详细信息请参考服务部署文档。

FunASR的案例应用

持续更新中……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值