由海天瑞声支持,全球最大多领域英语开源数据集发布

GigaSpeech是由多个团队和语音社区联合发布的,包含10000小时标注音频的多领域英语开源数据集,旨在推动语音识别技术的学术与产业界进步。数据集覆盖有声读物、播客和YouTube,提供不同规模的子集以适应各种训练任务,并设有排行榜展示不同ASR框架的性能。
摘要由CSDN通过智能技术生成

日前,由陈果果、都家宇、张卫强等发起的语音社区志愿者组织SpeechColab和清华语音与音频技术实验室,联合语音社区的8个团队,在语音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下(详见下图),发布了全球最大的多领域英语开源数据集—GigaSpeech,介绍该数据集的论文已被国际语音顶会InterSpeech2021接收。

在这里插入图片描述

GigaSpeech参与人员及团队,完整论文下载见下文

海天瑞声很荣幸参与了本次开源数据集的工作,为部分数据集提供了标注以及全部数据集的镜像下载支持,也为全球语音识别技术的探索贡献了自己的力量。

语音识别的性能,很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄,缺少难度挑战,准确率接近饱和。学术界和工业界研究开始分道扬镳,碎片化严重。作为目前全球最大的多领域英语开源数据集,GigaSpeech致力于推动学术界和产业界的共同进步。

01

概述

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督和无监督训练任务。

02

数据来源及质量控制

从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值