WenetSpeech 项目推荐

毛漪彤Grant

于 2024-09-13 22:10:46 发布

阅读量275

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_07667/article/details/142228866

版权

WenetSpeech 项目推荐

WenetSpeech A 10000+ hours dataset for Chinese speech recognition 项目地址: https://gitcode.com/gh_mirrors/we/WenetSpeech

1. 项目基础介绍和主要编程语言

WenetSpeech 是一个开源的中文语音识别数据集项目，由 wenet-e2e 团队维护。该项目的主要编程语言包括 Python 和 Shell。WenetSpeech 数据集包含了超过 10000 小时的语音数据，这些数据主要来源于 YouTube 和 Podcast，适用于中文语音识别的研究和开发。

2. 项目核心功能

WenetSpeech 的核心功能是提供一个大规模、多领域的中文语音识别数据集。该数据集经过光学字符识别（OCR）和自动语音识别（ASR）技术的处理，具有高质量的标注。数据集分为三个主要类别：

高标签数据（High Label）：包含 10005 小时的语音数据，标注置信度 >= 0.95，适用于监督训练。
弱标签数据（Weak Label）：包含 2478 小时的语音数据，标注置信度在 [0.6, 0.95] 之间，适用于半监督或噪声训练。
无标签数据（Unlabel）：包含 9952 小时的语音数据，适用于无监督训练或预训练。

此外，WenetSpeech 还提供了多个训练子集（S、M、L）和评估集（DEV、TEST_NET、TEST_MEETING），以支持不同规模的语音识别系统开发和评估。

3. 项目最近更新的功能

WenetSpeech 项目最近更新的功能包括：

数据集下载工具的优化：提供了更便捷的数据集下载方式，支持从 ModelScope 平台下载数据集。
数据集版本的更新：正在准备 WenetSpeech 2.0 版本，预计将包含更多的数据和更丰富的数据类型。
社区支持的增强：通过微信和电子邮件提供更便捷的社区支持和合作方式，鼓励开发者参与和贡献。

通过这些更新，WenetSpeech 项目进一步提升了数据集的质量和可用性，为中文语音识别的研究和应用提供了更强大的支持。

WenetSpeech A 10000+ hours dataset for Chinese speech recognition 项目地址: https://gitcode.com/gh_mirrors/we/WenetSpeech

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

毛漪彤Grant 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。