ICPR 2022 | 多模态字幕识别竞赛正式启动！

最新推荐文章于 2024-05-21 10:11:00 发布

Amusi（CVer）

最新推荐文章于 2024-05-21 10:11:00 发布

阅读量424

点赞数

文章标签：深度学习机器学习人工智能 python 大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247541382&idx=3&sn=3d69f3ee926b7514c8f70e8a04509f49&chksm=f9a15009ced6d91fc20567d08b9b446ef59e757f9cc50173641169caf06719bc62284f909d7c&scene=126&&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

ICPR 2022 Challenge: Multimodal Subtitle Recognition

参赛通知

视频通过视觉和音频等传递丰富的信息。视频理解一直是学术界和工业界的热门研究课题。

融合多模态信息也是一个具有挑战性和有意义的研究课题。在本次竞赛当中，我们专注于从视频中提取字幕。字幕是文字来源于访谈节目或电视剧等类的视频。字幕是视频数据中最重要的文本信息之一，因为字幕包含人们交谈内容的信息。字幕识别广泛用于推荐、检索和视频理解系统。为了更好的促进字幕识别的发展，我们在ICPR 2022上举办多模态字幕识别竞赛，欢迎大家报名参赛。

一、比赛时间

1. 注册报名：2022.03.07

2. 训练集公布：2022.03.12

3. 开发阶段：2022.03.12 – 2022.04.22

4. 评测阶段：2022.04.22 – 2022.05.07

5. 验证集公布：2022.04.22

6. 结果提交截止：2022.05.07

7. 方法描述截止：2022.05.12

8. 评测结果公布：2022.05.13

二、注册和提交方式

本次比赛的注册和提交CodaLab网站上开展，具体提交细节请参考竞赛网站（icprmsr.github.io）。

三、比赛内容

本次比赛分为三个赛道分别为：

1.使用音频模态标注的字幕信息在视觉模态中提取字幕

在这个任务中，只有音频提供的字幕信息。参赛者需设计一个字幕识别的OCR模型。参赛者可以使用自知业界开源开放数据集对OCR模型进行预训练，然后通过音频模态提供的字幕信息微调模型。提交的结果将在视觉模态的测试集上使用CER指标的结果进行排名。

2.使用视觉模态标注的字幕信息在音频模态中提取字幕

在这个任务中，只有视觉模态提供的字幕信息。参赛者需设计一个字幕识别的ASR模型。与任务一相同，参赛者可以使用指定开放数据集对ASR模型进行预训练，然后通过视觉模态提供的字幕信息微调模型。提交的结果将在音频模态的测试集上使用CER指标的结果进行排名。

3.使用视觉模态和音频模态标注的字幕信息提取视频中的字幕

在这个任务中，我们将提供音频模态和视觉模态标注的字幕信息。参赛者需利用这个两个模态的字幕信息设计一个字幕识别的模型。与任务一，二相同，参赛允许使用公开数据集进行预训练，然后对模型进行微调。提交结果将在同时具备视觉和音频模态的测试集上使用CER指标的结果进行排名。

四、组织方

主办方：腾讯科技有限公司、华南理工大学、香港中文大学

数据支持方：数据堂

五、联系方式

比赛网站：https://icprmsr.github.io/

联系邮箱：lattehuang@tecent.com

竞赛交流群：

Amusi（CVer）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。