阿里巴巴开源的语音识别工具包,提供预训练模型与详细教程,一键部署多场景应用

🚀 快速阅读

  1. FunASR 是由阿里巴巴开源的语音识别工具包,支持多种功能,包括语音识别、语音活动检测、标点恢复、说话人验证等。
  2. FunASR 提供了预训练模型和易于使用的接口,支持快速部署,满足不同场景的应用需求。
  3. 本文将介绍 FunASR 的主要功能、技术原理,并提供运行示例和安装教程。

正文(附运行示例)

FunASR 是什么

FunASR 是由阿里巴巴达摩院开源的语音识别工具包,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产。它支持多种功能,如语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证和多人对话语音识别等。FunASR 提供了便捷的脚本和教程,支持预训练模型的推理与微调,使用户能够快速部署语音识别服务。

FunASR 的主要功能

  • 语音识别(ASR):将语音信号转换为文本信息。
  • 语音活动检测(VAD):识别语音信号中的有效语音部分,过滤掉静音或背景噪音。
  • 标点恢复:在语音识别结果中自动添加标点符号,提高文本的可读性。
  • 说话人验证:识别并验证说话人的身份。
  • 说话人分离:在多人对话中区分不同说话人的声音。
  • 多说话人 ASR:处理多人同时说话的场景,识别和区分每个人的语音。

如何运行 FunASR

安装教程

确保已安装以下依赖环境:

python>=3.8
torch>=1.13
torchaudio

使用 pip 安装:

pip3 install -U funasr

或者从源代码安装:

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

如果需要使用工业预训练模型,安装 modelscope 与 huggingface_hub(可选):

pip3 install -U modelscope huggingface huggingface_hub

运行示例
非实时语音识别

使用 Paraformer 模型进行语音识别:

from funasr import AutoModel

model = AutoModel(model="paraformer-zh", vad_model="fsmn-vad", punc_model="ct-punc")
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", batch_size_s=300, hotword='魔搭')
print(res)

实时语音识别

使用 Paraformer 模型进行实时语音识别:

from funasr import AutoModel

chunk_size = [0, 10, 5]  # 600ms
encoder_chunk_look_back = 4
decoder_chunk_look_back = 1

model = AutoModel(model="paraformer-zh-streaming")

import soundfile
import os

wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960  # 600ms

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)

语音端点检测(VAD)示例

使用 fsmn-vad 模型进行语音端点检测:

from funasr import AutoModel

model = AutoModel(model="fsmn-vad")

wav_file = f"{model.model_path}/example/vad_example.wav"
res = model.generate(input=wav_file)
print(res)

VAD 模型将返回音频中有效语音段的起始和结束时间,格式如下:

[[beg1, end1], [beg2, end2], ..., [begN, endN]]

其中 begNendN 以毫秒为单位。

标点恢复示例

使用 ct-punc 模型进行标点恢复:

from funasr import AutoModel

model = AutoModel(model="ct-punc")

res = model.generate(input="那今天的会就到这里吧 happy new year 明年见")
print(res)


该模型会自动在转录文本中添加合适的标点符号,提升文本的可读性。

时间戳预测示例

使用 fa-zh 模型进行时间戳预测:

from funasr import AutoModel

model = AutoModel(model="fa-zh")

wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/text.txt"
res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
print(res)


该模型将为输入的音频和文本生成时间戳信息。

情感识别示例

使用 emotion2vec_plus_large 模型进行情感识别:

from funasr import AutoModel

model = AutoModel(model="emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"

res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)


该模型将返回音频中情感类别的预测结果,如 “生气/angry”,“开心/happy”,“中立/neutral”,“难过/sad”。

资源

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

03-10
<think>好的,我现在要帮助用户解决关于FunASR的安装、配置和使用问题。首先,我需要回忆用户提供的引用内容。根据引用[1],用户提到了在Windows 10上安装FunASR并运行离线时间戳模型的步骤,特别是提到打开funasr_samples\samples\html\static文件夹,使用网页运行index.html。这可能涉及到安装后的示例运行步骤。 接下来,我需要整理安装FunASR的一般流程。通常,这类工具需要Python环境,可能需要使用pip安装。用户可能是在Windows系统下操作,所以需要指导如何在Windows上安装依赖,比如FFmpeg或者其他的库。然后,配置环境变量,确保命令行可以找到必要的工具。 然后,配置部分可能需要下载预训练模型,或者调整配置文件。用户提到的离线时间戳模型,可能需要从特定的位置下载模型文件,并放置到正确的目录中。运行示例时,可能需要通过命令行执行Python脚本,或者像引用中提到的,通过网页界面来运行,这可能涉及到启动一个本地服务器,或者打开HTML文件。 用户的问题可能包括安装过程中的常见错误,比如依赖冲突、缺少库文件,或者模型文件路径不正确。需要提前预想这些问题,并在指南中给出解决方法。例如,安装时提示缺少某些模块,可能需要通过pip单独安装,或者安装特定版本的库。 另外,引用[2]提到了Whisper的使用,虽然用户现在关注的是FunASR,但可能需要简要比较两者的区别,或者说明FunASR的特定优势,比如离线运行、时间戳功能等。但用户主要需求是安装和使用,所以这部分可能放在应用场景或相关问题里。 在生成使用教程时,需要分步骤说明:安装依赖、克隆仓库、安装FunASR、下载模型、运行示例。代码块需要正确显示命令,例如pip install命令和运行Python脚本的命令。同时,注意用户可能对命令行操作不熟悉,需要给出具体的示例,如cd到特定目录。 最后,根据用户要求生成相关问题,可能涉及性能优化、模型训练、其他工具的比较等。需要确保问题相关且有参考价值,帮助用户进一步探索。 现在需要检查是否所有步骤都覆盖到了,并且符合用户提供的引用内容。特别是确保提到了运行index.html的步骤,以及模型下载的路径是否正确。如果有遗漏,可能需要补充细节,比如如何解决路径错误,或者如何处理浏览器安全限制导致网页无法运行的情况。</think>以下为FunASR使用指南,包含安装、配置及运行教程: ### 一、安装步骤(Windows 10) 1. **安装前置依赖** ```bash conda create -n funasr python=3.8 conda activate funasr pip install torch torchaudio pip install funasr modelscope ``` 2. **下载离线时间戳模型** ```python from modelscope.hub.snapshot_download import snapshot_download snapshot_download('damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', cache_dir="./model") ``` ### 二、配置验证 1. **检查音频处理依赖** ```bash ffmpeg -version # 需确认返回版本号≥4.0[^1] ``` 2. **环境变量设置** ```bash set PATH=%PATH%;C:\ffmpeg\bin # 若使用自定义FFmpeg路径 ``` ### 三、运行离线时间戳示例 1. **执行语音识别** ```python from funasr import AutoModel model = AutoModel(model="paraformer-zh", model_revision="v2.0.4") res = model.generate(input="audio.wav", batch_size_s=300) print(res[0]["text"]) # 输出带时间戳的识别结果 ``` 2. **网页端可视化** ```bash cd funasr_samples\samples\html\static start index.html # 双击打开网页上传音频测试[^1] ``` ### 四、常见问题解决 | 问题现象 | 解决方案 | |---------|----------| | 缺少libssl.dll | 安装VC++ Redistributable | | 网页无法加载音频 | 使用Chrome浏览器并允许本地文件访问 | | 模型下载失败 | 手动从ModelScope仓库下载模型至./model目录 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值