ICME 2019 短视频内容理解与推荐竞赛的颁奖仪式上个月在 ICME 大会上举办。此次竞赛由字节跳动与 ICME 联合举办,分为两个赛道,共有 2397 名参赛者组成 1025 支队伍参赛。
本文将首先回顾赛题,并邀请了两个赛道的冠军介绍模型与方法。
赛题背景
近年来,机器学习在图像识别、语音识别等领域取得了重大进步,但在视频内容理解领域仍有许多问题需要探索。一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。
与此同时,视频已经逐渐成为互联网上的火爆应用。目前,视频流量已经占到网络总流量的 80%。其中,TikTok 和抖音等短视频应用的崛起也对视频数据的丰富贡献了重要的力量。
将深度学习应用于视频理解的方向上已经有很多积极的成果。早在 2014 年,Andrej Karpathy 等人就利用卷积神经网络对大规模的视频数据进行分类(Large-scale Video Classification with Convolutional Neural Networks)。他们提取出了每帧的特征,并将特征在不同时间上融合在一起,完成视频分类的工作。
对视频进行自然语言处理也是一个很重要的方向,因为在视频索引、自动影评生成,以及为视障人士生成视频描述等领域都有重要应用。注意力机制可以被用来识别视频中关键的 segment,也可以让深度学习网络关注图片和视频序列的某个部分。也就是说,在用卷积神经网络提取每帧特征后,再用 LSTM 挖掘它们之间的时序关系。J. Donahue 等人在 CVPR 2015 上的论文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description 就描述了相关的技术,并为视频生成了自然语言描述。
赛题描述
本次竞赛提供多模态的短视频内容特征,包括视觉特征、文本特征和音频特征,同时提供了脱敏后的用户点击、喜爱、关注等交互行为数据。参赛者需要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测该用户在另一视频数据集上的点击行为。
竞赛最终根据参赛者提交的模型和预测结果,通过构建深度学习模型,预测测试数据中每个用户 id 在对应作品 id 上是否浏览完作品和是否对作品点赞的概率加权结果。本次比赛使用 AUC(ROC 曲线下面积)作为评估指标。AUC 越高,代表结果越优,排名越靠前。
赛道1:大规模数据集,亿级别的数据信息。
赛道2:小规模数据集,千万级别的数据信息。
Sent-Track冠军团队自述
团队介绍
“我叫楼马晶,明略科技算法研究员,队伍的另外两名队友包括吴亚熙和练质彬。吴亚熙是京东的算法工程师,他和我是长期一起做数据挖掘比赛,我们一起获得过 2016 年的 CCF-BDCI 二等奖、第三届阿里云安全算法挑战赛亚军等比赛成绩。练质彬来自华南师范大学,是研究生二年级的学生,是这次比赛认识的新朋友,在比赛后期加入我们队伍。”