导读
足球作为世界第一运动,吸引着无数球迷的目光。如何通过人工智能技术深入理解足球视频,提升战术分析、内容生成和观赛体验,一直是学术界和产业界的热门话题。上海交通大学的AI4Sports研究团队在CVPR 2025发表论文《Towards Universal Soccer Video Understanding》,提出了一个全新的多模态足球视频理解框架,并发布了迄今为止最大的足球视频数据集SoccerReplay-1988。本文将带你深入解读这篇论文,揭秘AI如何助力足球视频理解的未来!
本文第一作者是来自上海交通大学的博士生饶珈源和吴浩宁,通讯作者是来自上海交通大学的王延峰和谢伟迪教授。
所有代码、数据集、模型文件均已开源
WebPage:https://jyrao.github.io/UniSoccer/
Paper:https://arxiv.org/pdf/2412.01820
Code:https://github.com/jyrao/UniSoccer
图1. 概览: UniSoccer利用所收集的大规模数据集进行预训练并适配多种下游任务的微调,从而实现对于多种不同足球任务的通用理解
“Football is one of the world’s best means of communication. It is impartial, apolitical, and universal.”
—— Franz Beckenbauer (1945 - 2024)
SoccerReplay-1988数据集
为了推动足球视频理解的研究,我们构建了迄今为止最大的足球视频数据集——SoccerReplay-1988。该数据集涵盖了从2017-18赛季到2023-24赛季的欧冠与欧洲五大联赛内的1988场比赛。每场比赛都带有含秒级时间戳的详细的文本解说和事件标注(如角球、进球、犯规等)。此外,数据集还包含了丰富的元数据,如球员、教练、裁判和球队信息,为未来的研究提供了坚实的基础。
足球数据预处理
图2. 足球数据集预处理框架示意图
对于这1988场足球比赛,我们对于在互联网获取所有视频、文本资源进行了详细的预处理,实现对于比赛解说、事件分类等下游任务的搭建。同时减少互联网数据不对齐等噪声干扰,以提高数据集的质量。具体预处理步骤如下:
1️⃣ 视频截取:所有比赛视频都被裁剪为从开球时刻开始播放,以便于后续结合事件时间戳进行预处理。
2️⃣ 时序对齐:沿用MatchTime[1]工作的足球时序对齐框架进行时序对齐,以减少因视频文本不对应带来的噪声。
3️⃣ 事件总结:所有解说文本都借助LLaMA-3(70B)模型进行总结,生产事件分类标签用于后续足球理解任务。
4️⃣ 匿名掩码:对于所有解说文本都进行了匿名化处理,从而更好评判解说模型性能。
数据集统计
表1. 足球数据集数据统计及可视化
与现有足球多模态数据集相比,SoccerReplay-1988数据集在比赛场次、标签数量、事件粒度、语义丰富程度等多方面均有大幅领先。同时也对于现行足球新规则(如VAR等)有了更完整的补充。这是AI技术渗透体育领域的基础,也为本工作后续的多模态理解框架提供了更好的原材料。我们也节选SoccerReplay和MatchTime中的部分比赛,建立了新的通用足球理解Benchmark。
MatchVision:多模态足球理解框架
过往对于足球理解任务的架构和数据形式五花八门、各自芬芳,本工作基于过往工作中出现的一些不足之处进行了统筹和改进,从而更好的实现对于足球任务的通用理解。以下是MatchVision框架主要的创新点在于:
图3. MatchVision多模态足球理解框架示意图: (a)视频编码器框架 (b)预训练任务框架 (c)多种下游任务示意图
⏰ 时序信息编码:对于体育比赛这类高度运动场景,多数过往足球工作使用的图片编码所展现的性能捉襟见肘。MatchVision使用了“时间+空间”两层注意力机制叠加,对于每个足球视频切片都进行深度的时序信息理解。
🥘 大规模预训练:在SoccerReplay-1988的加持下,我们使用事件分类监督学习和解说文本对比学习两种方式进行“杂糅式”大规模预训练,充分吸收不同任务对于足球理解的侧重点。
⚽️ 多种下游任务的适配:除了预训练所涉及的足球解说和事件分类任务,本工作也对于其他场景的下游任务进行适配,例如多视角犯规检测任务。在统一的MatchVision框架下,仅对下游任务的微调即可。
实验结果
Quantitative Results
在过往的SoccerNet[2]系列足球任务指标上,MatchVision框架结合SoccerReplay-1988数据集展现了卓越的性能。在📊分类任务与🗣️解说生成中,MatchVision 均展现了大幅度优于过往工作的性能,并体现出以下特性:
1️⃣ MatchVision框架的使用大幅提升了任务效果,尤其是对于分类任务的Top-1准确性产生近50%的性能提升。
2️⃣ 在SoccerReplay-1988数据集的加持下,两种任务的性能得以进一步提升,尤其是解说生成任务。
3️⃣ 多种预训练手段融合训练时所展现的综合性能最佳。
表2. 事件分类与解说生成定量分析实验结果
同样,依托该预训练大模型框架,MatchVision在其他下游任务以及我们所设立的新Benckmark上也展现出了相当不错的性能,进一步验证了该框架以及预训练方法的有效性。
表3. (左)对于多视角犯规任务的实现效果,在仅进行下游任务微调时体现与其他框架整体预训练相当的效果;(中)在新benchmark的分类任务中展现最佳性能;(右)在新benchmark的解说生成任务中展现最佳性能。
Qualitative Results
如图所示,MatchVision框架在结合不同下游任务时均体现了更加出色的效果,包括 (a)更加细致的语言描述 (b)更多样化的语言表达 (c)更高的描述准确性 (d) 更时兴的足球规则展现 (e) 更具体的足球场景理解等等。
图4. 部分足球事件分类、评论生成可视化效果展示
写在最后
与上一篇工作MatchTime相比,UniSoccer的核心是打破了AI体育在高质量数据集的壁垒,给未来领域内的工作建立了更通用、更扎实的地基。作为看球十几年的球迷,前期持续十几周高强度、重复性的足球数据处理,反而让我从另一个角度审视了这项运动。看着相似片段无数次的重复,画面里却永远有不知疲倦的奔跑和拼搏。就像央视解说员贺炜在卡塔尔世界杯决赛后留下的感慨:“我们为什么深爱着足球这项运动?因为他不仅展现了球员们励志的奋斗故事,还寄托了我们普通人平凡生活中的英雄梦想。”希望看到这篇推文的你,也能够在未来更多的走上看台,走上运动场,相信哪怕是校园级别的体育比赛,都能让你切身地感受体育运动带来的激情与乐趣。长此以往,真正的“Universal Soccer”一定会离我们越来越近!
最后的最后,最诚挚的呐喊送给我们正在征战世界杯预选赛的男足国家队,期待你们在属于我们的最高舞台上尽情地发挥自己。随着体育科技的蓬勃发展,AI也开始理解足球场上瞬息万变的博弈,但我们仍然比任何时候都更清楚:赛场内外真正的突破从来不是算法的奇迹,而是所有从业者用汗水与泪水折射出的职业精神。兴许 UniSoccer 不会让点球大战的胜率突破50%,但它一定能帮助每个关注足球、关注体育的人,离这项运动的本质更近一步。希望我们的工作可以成为看台点点星光里平凡又明亮的一份子,为足球产业、为中国体育注入坚实且笃定的力量。
Reference
[1] Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, and Weidi Xie. Matchtime: Towards automatic soccer game commentary generation. In Proceedings of the Conference on Empirical Methods in Natural Language Processinng, 2024.
[2] SoccerNet, https://www.soccer-net.org/
欢迎关注!
欢迎转载!
欢迎与我们讨论!
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦