声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge
本文为阿里等单位在2022.02.08更新的文章,主要对icassp 2022 M2MeT挑战赛的方案总结:speaker diarization and multi-speaker ASR 。具体的文章链接https://arxiv.org/pdf/2202.03647.pdf
(文章只摘要具体方案的结果,不做详细讲解,该领域的读者看看各种方案也就了解的差不多。另外我对于Speaker diarization也不熟悉)
1 简介
现实的多人会议场景转录的任务是近几年研究的热点,The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge (M2MeT)挑战赛是对该场景提供交流的平台。本挑战赛主要分为speaker diarization和multi-speaker ASR赛道,使用的数据为120小时的8通道现实会议场景数据AliMeeting 。评价指标分别为Diarization Error Ra