Nvidia发布Parakeet V2,一款新的开源自动语音识别模型

Nvidia 发布 Parakeet V2,一款新的开源自动语音识别 AI,核心亮点:一秒钟转录一小时的音频;Open ASR 上的顶级模型,击败了 ElevenLabs 的 Scribe 和 OpenAI 的 Whisper;6.05% 的单词错误率;CC-BY-4.0 许可下可用。

添加图片注释,不超过 140 字(可选)

基本信息:基于 FastConformer-TDT 架构,有 6 亿参数,用于高质量英语转录,支持标点、大小写和时间戳预测,遵循 CC-BY-4.0 许可,可全球部署。适用于需要语音转文本功能的开发者、研究人员、学者和行业。

添加图片注释,不超过 140 字(可选)

输入输出:输入为 16kHz 单声道音频,支持.wav 和.flac 格式;输出为包含标点和大小写的文本字符串。

使用方法:需安装 NVIDIA NeMo,可在 NeMo 工具包中使用,也能作为预训练检查点进行推理或微调。示例代码展示了如何自动实例化模型、转录音频以及获取带时间戳的转录结果。

训练与评估:使用 NeMo 工具包训练,从 LibriLight 数据集预训练的 wav2vec SSL 检查点初始化,在多种数据集上训练,包括 10000 小时人工转录数据和 110000 小时伪标记数据,训练数据包含多种噪声源。评估使用 Huggingface Open ASR Leaderboard 数据集,性能指标为词错误率(WER)。模型在不同数据集上的平均 WER 为 6.05%,在噪声鲁棒性和电话音频性能方面也有相应测试结果。

添加图片注释,不超过 140 字(可选)

性能表现

  • 基础性能:在多个数据集上进行测试,平均词错误率(WER)为 6.05% 。

  • 噪声鲁棒性:随着信噪比降低,WER 有所上升。

  • 电话音频性能:相比标准 16kHz 音频,μ-law 8kHz 音频的 WER 略高。

推理:使用 NVIDIA NeMo 引擎,支持多种 NVIDIA 硬件进行推理测试。

伦理考量:开发者应确保模型符合行业和用例要求,避免产品滥用。在偏差、可解释性、隐私和安全方面有相关说明,如未采取缓解偏差措施、模型输出可能不准确、训练数据有来源证明、数据标注符合隐私法但无法满足外部数据主体的修改或删除请求等。

https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

### 解决方案 当遇到 `ModuleNotFoundError: No module named 'sklearn'` 错误时,表明当前 Python 环境缺少所需的 `scikit-learn` 库。为了使 OpenKE 能够成功导入并使用该库,需确保已正确安装此依赖项。 #### 方法一:通过 Conda 安装 Scikit-Learn 对于 Anaconda 用户而言,推荐采用 conda 渠道来获取软件包,因其能更好地管理不同版本间的兼容性问题[^4]: ```bash conda install scikit-learn ``` 执行上述命令后,Conda 将自动处理所有必要的依赖关系,并完成 `scikit-learn` 的部署工作。 #### 方法二:利用 pip 工具进行安装 如果偏好于轻量级解决方案或是非 Anaconda 用户,则可借助 pip 来实现相同目的。值得注意的是,在某些情况下可能需要指定特定版本以匹配项目需求: ```bash pip install --upgrade pip # 更新至最新版pip工具 pip install -U scikit-learn ``` 以上两种方式均可有效解决因缺失 `sklearn` 所引发的 ImportError 异常情况。一旦顺利完成安装过程,再次尝试运行含有 `import sklearn` 或其子模块语句的脚本应不会再遭遇同样的障碍[^1]。 另外,在 PyCharm IDE 下开发期间碰到此类问题时,除了按照前述方法添加所需库外,还需确认项目的解释器设置无误——即所选解释器确实包含了刚刚安好的扩展包[^3]。 ### 注意事项 - 若在同一环境中存在多个 Python 版本共存的情形下,请务必谨慎选择对应的 package manager (如 conda vs. pip),以免造成不必要的冲突。 - 对于虚拟环境使用者来说,记得激活目标 venv 后再实施相应的安装操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开心的AI频道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值