第三届“东方多语言语种识别竞赛”开始召集了!
该竞赛旨在促进东方语种识别技术的发展,与往年相比,今年的竞赛将增加更多趣味性和挑战性!
竞赛结果将在2018年11月份在夏威夷举办的“APSIPA2018 ASC”会议上宣布
为增强任务挑战性及实用性,本届竞赛将考虑以下因素:
1. 短语音,如1秒钟;
2. 开集语言,即测试集中包含目标语种之外的语言;
3. 混淆语言,即语言之间较为相似,容易误判。
具体评估方式和基准线系统将于数据发布后一周内公布,相关信息将及时更新于竞赛官网www.olrchallenge.org
竞赛组织方:
海天瑞声:提供数据集
清华大学:提供基线系统
1. 海天瑞声将免费提供7个东方语种的语音数据,总时长超过170小时。包括:粤语/国语/印尼语/日语/俄语/韩语/越南语。清华大学将提供3种东方语言,包括哈萨克语/藏语/维吾尔语,这些语料来自清华大学、西北民族大学、新疆大学共同承担的国家自然科学基金重点项目)。
2. 海天瑞声还将提供8种集外语种数据。
3. 清华大学将提供完整的基准线系统,以帮助参赛团队快速建立系统。