Whisper-Diarization 项目推荐

Whisper-Diarization 项目推荐

whisper-diarization Automatic Speech Recognition with Speaker Diarization based on OpenAI Whisper whisper-diarization 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-diarization

1. 项目基础介绍和主要编程语言

Whisper-Diarization 是一个基于 OpenAI Whisper 的自动语音识别(ASR)和说话人分割(Speaker Diarization)的开源项目。该项目的主要编程语言是 Python,适合对语音识别和说话人分割技术感兴趣的开发者使用。

2. 项目核心功能

Whisper-Diarization 项目结合了 Whisper 的语音识别能力和语音活动检测(VAD)以及说话人嵌入技术,能够识别并标记音频中每个句子的说话人。其核心功能包括:

  • 语音识别:使用 OpenAI Whisper 进行语音转文字。
  • 说话人分割:通过语音活动检测和说话人嵌入技术,识别并标记每个句子的说话人。
  • 时间戳校正:使用 WhisperX 对时间戳进行校正和对齐,以减少由于时间偏移导致的分割错误。
  • 并行处理:支持在具有足够 VRAM 的系统上并行运行 NeMo 和 Whisper,以提高处理速度。

3. 项目最近更新的功能

Whisper-Diarization 项目最近更新的功能包括:

  • 命令行选项:增加了多个命令行选项,如 --no-stem(禁用源分离)、--whisper-model(选择 ASR 模型)、--suppress_numerals(数字转字母以提高对齐精度)、--device(选择设备)、--language(手动选择语言)、--batch-size(批处理大小)等。
  • 并行处理:引入了 diarize_parallel.py,支持在具有足够 VRAM 的系统上并行运行 NeMo 和 Whisper,以提高处理速度。
  • 实验性功能:尽管并行处理功能仍处于实验阶段,但开发者欢迎用户反馈以改进该功能。

通过这些更新,Whisper-Diarization 项目在功能和性能上都有了显著提升,为用户提供了更灵活和高效的语音识别和说话人分割解决方案。

whisper-diarization Automatic Speech Recognition with Speaker Diarization based on OpenAI Whisper whisper-diarization 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-diarization

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乌华傲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值