Whisper-AT 开源项目教程

Whisper-AT 开源项目教程

whisper-atCode and Pretrained Models for Interspeech 2023 Paper "Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers"项目地址:https://gitcode.com/gh_mirrors/wh/whisper-at

项目介绍

Whisper-AT 是一个结合了音频事件标签和自动语音识别(ASR)功能的模型。该项目基于 Whisper 模型,增加了音频标签功能,能够在识别语音的同时,输出背景声音的标签。Whisper-AT 不仅继承了 Whisper 的所有API和ASR性能,还能够在不增加太多计算成本的情况下,提供接近最先进的音频标签性能。

项目快速启动

安装 Whisper-AT

首先,确保你的环境中已经安装了 ffmpeg。然后,按照以下步骤安装 Whisper-AT:

# 安装所有依赖,除了 triton
pip install numba numpy torch tqdm more-itertools tiktoken==0.3.3
# 安装 Whisper-AT 不带任何依赖
pip install --no-deps whisper-at

使用 Whisper-AT

以下是一个简单的示例,展示如何使用 Whisper-AT 进行语音识别和音频标签:

import whisper_at as whisper

# 设置音频标签的时间分辨率
audio_tagging_time_resolution = 10

# 加载模型
model = whisper.load_model("large-v1")

# 识别音频文件
result = model.transcribe("audio.mp3", at_time_res=audio_tagging_time_resolution)

# 输出 ASR 结果
print(result["text"])

# 输出音频标签结果
audio_tag_result = whisper.parse_at_label(result, language='follow_asr', top_k=5, p_threshold=-1, include_class_list=list(range(527)))
print(audio_tag_result)

应用案例和最佳实践

应用案例

Whisper-AT 可以广泛应用于需要同时进行语音识别和音频标签的场景,例如:

  • 智能家居:识别用户的语音命令并同时识别环境中的声音事件,如狗叫、门铃等。
  • 安全监控:在监控视频中,同时进行语音识别和环境声音的标签,提高监控的智能化水平。

最佳实践

  • 模型选择:根据具体需求选择合适的模型大小(如 base, small, medium, large),以平衡性能和计算资源。
  • 时间分辨率设置:根据应用场景调整 audio_tagging_time_resolution,以达到最佳的识别效果和效率。

典型生态项目

Whisper-AT 作为一个开源项目,可以与其他开源项目结合使用,形成更强大的生态系统。例如:

  • OpenAI Whisper:Whisper-AT 基于 Whisper 模型开发,可以与 Whisper 的其他功能和工具结合使用。
  • AudioSet:Whisper-AT 使用的音频标签基于 AudioSet 的标签体系,可以与 AudioSet 的相关研究和工具结合使用。

通过这些结合,可以进一步扩展 Whisper-AT 的应用范围和功能。

whisper-atCode and Pretrained Models for Interspeech 2023 Paper "Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers"项目地址:https://gitcode.com/gh_mirrors/wh/whisper-at

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邴富畅Pledge

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值