搞定语音识别,畅享高效处理 | 开源专题 No.78

alibaba-damo-academy/FunASRhttps://github.com/alibaba-damo-academy/FunASR

Stars: 2.0k  License: NOASSERTION

FunASR 是一个基础的语音识别工具包,提供了多种功能,包括语音识别(ASR)、语音活动检测(VAD)、标点还原、语言模型、说话人验证、说话人分离和多讲者 ASR。该项目发布了大量学术和工业预训练模型,并通过 Model Zoo 和 huggingface 进行开源。其中代表性的 Paraformer-large 模型具有高准确性、高效率和便捷部署等优势,支持快速构建语音识别服务。同时提供方便的脚本和教程以及对预训练模型进行推理和微调的支持。

ggerganov/whisper.cpp

https://github.com/ggerganov/whisper.cpp

Stars: 22.2k  License: MIT

 

whisper.cpp 是一个高性能的 OpenAI Whisper 自动语音识别 (ASR) 模型推理项目。它具有以下主要功能和核心优势:

  • 无依赖的纯 C/C++实现

  • 针对 Apple Silicon 进行了 ARM NEON、Accelerate 框架和 Core ML 的优化,成为首选平台

  • 支持 x86 体系结构上的 AVX 指令集以及 POWER 体系结构上的 VSX 指令集

  • 混合 F16/F32 精度支持

  • 支持 4 位和 5 位整数量化

  • 低内存使用 (Flash Attention)

  • 运行在 CPU 上,并部分支持 NVIDIA GPU;通过 cuBLAS 以及部分支持 OpenCL GPU; 通过 CLBlast 加速计算。

该项目还提供了丰富而全面的平台支持,包括 Mac OS、iOS、Android、Java 等多个操作系统/环境。

此外,whisper.cpp 还具有以下特点:

  • 轻量级模型实现:将整个模型实现压缩到 2 个源文件中,方便在不同平台和应用程序中轻松集成。

  • 提供示例代码:演示如何使用库进行样本音频转录以及从麦克风获取实时音频并进行转录。

  • 各种绑定可用:提供各种编程语言 (如 Rust、Javascript、Go 等) 下与 Whisper 交互的绑定。

  • 提供多个示例项目:包括命令行工具、语音助手应用程序以及在浏览器中运行 Whisper 等。

m-bain/whisperX

https://github.com/m-bain/whisperX

Stars: 5.6k  License: BSD-4-Clause

 WhisperX 是一个开源项目,具有单词级时间戳和说话人分离功能。

  • 使用 whisper large-v2 进行批量推理,以达到 70 倍的实时转录

  • faster-whisper 后端更快,并且对于 large-v2 模型只需要小于 8GB GPU 内存

  • 使用 wav2vec2 对齐来获得准确的单词级时间戳

  • 利用 pyannote-audio 中的说话人分离技术进行多说话人 ASR (带有说话者 ID 标签)

  • VAD 预处理可以降低幻听问题,并在不影响 WER 情况下进行批处理

AIGC-Audio/AudioGPT

https://github.com/AIGC-Audio/AudioGPT

Stars: 9.4k  License: NOASSERTION

AudioGPT 是一个理解和生成语音、音乐、声音和虚拟人的开源项目。

主要功能:

  • 文本转语音

  • 风格迁移

  • 语音识别

  • 语言增强 (Speech Enhancement)

  • 声学分离 (Speech Separation)

该项目具有以下核心优势:

  • 多领域支持:AudioGPT 在多个领域都提供了强大的支持,包括文本到语言合成、风格迁移以及各种与声学相关任务。无论您需要什么样的应用场景,在这个项目中都能找到满足需求的模型。

  • 先进技术实现:AudioGPT 采用最先进的基础模型来实现其功能,如 FastSpeech,SyntaSpeech 等。这些高质量模型经过训练完善调试后发布给用户使用。

Const-me/Whisper

https://github.com/Const-me/Whisper

Stars: 5.5k  License: MPL-2.0

 

这个项目是 OpenAI Whisper 自动语音识别 (ASR) 模型的 C++ 移植版本。该项目在 Windows 平台上实现了 Whisper.cpp,并提供了一些核心优势和主要功能:

  • 基于 DirectCompute 的跨厂商通用 GPGPU 技术

  • 纯 C++ 实现,除操作系统组件外无运行时依赖

  • 比 OpenAI 原始实现更快速

  • 支持混合 F16/F32 精度计算

  • 内置性能分析器来测量各个计算着色器执行时间

  • 低内存使用率

此外还有其他特点包括支持多种音频格式、媒体处理基础设施以及易于使用 COM 风格 API 等。

  • 29
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
华为畅享10 Plus是一款备受用户追捧的智能手机,但有时候也会出现需要降级的情况。 降级指的是将手机的操作系统版本从较新的版本降低到较旧的版本。通常情况下,人们可能需要降级是因为在更新系统后出现了一些问题,比如系统不稳定、应用程序无法正常运行或电池续航时间减少等。 要进行华为畅享10 Plus的降级,首先需要确保备份手机中的重要数据,以免在降级过程中丢失。接下来需要下载并安装适用于华为畅享10 Plus的旧版本系统软件。用户可以在华为官方网站或其他可信的下载平台上寻找并下载与自己手机型号相对应的系统软件。 在下载完成后,将系统软件传输到手机存储中,并确保手机电量充足。然后,打开华为畅享10 Plus的设置菜单,找到关于手机的部分。在此选择系统更新并点击“本地更新”。系统将开始扫描并识别降级软件,并提供“降级安装”选项。 点击“降级安装”,手机将自动重启并开始安装旧版本系统。这个过程可能会花费一些时间,在此期间,请耐心等待手机完成降级。 完成降级后,手机将重新启动,并恢复到降级之前的系统版本。用户可以重新设置手机,并在必要时还原备份的数据。 需要注意的是,降级操作可能会导致一些风险,比如可能会丢失数据或手机变得不稳定。因此,在执行降级操作之前,请确保已经了解和理解风险,并谨慎操作。如果不确定如何操作或有其他疑问,建议咨询华为官方客服或专业人士的帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值