字节跳动 2019 ICME 双赛道冠军团队方案分享

640


ICME 2019 短视频内容理解与推荐竞赛的颁奖仪式上个月在 ICME 大会上举办。此次竞赛由字节跳动与 ICME 联合举办,分为两个赛道,共有 2397 名参赛者组成 1025 支队伍参赛。 


本文将首先回顾赛题,并邀请了两个赛道的冠军介绍模型与方法。


赛题背景


近年来,机器学习在图像识别、语音识别等领域取得了重大进步,但在视频内容理解领域仍有许多问题需要探索。一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。 
与此同时,视频已经逐渐成为互联网上的火爆应用。目前,视频流量已经占到网络总流量的 80%。其中,TikTok 和抖音等短视频应用的崛起也对视频数据的丰富贡献了重要的力量。 
将深度学习应用于视频理解的方向上已经有很多积极的成果。早在 2014 年,Andrej Karpathy 等人就利用卷积神经网络对大规模的视频数据进行分类(Large-scale Video Classification with Convolutional Neural Networks)。他们提取出了每帧的特征,并将特征在不同时间上融合在一起,完成视频分类的工作。 
对视频进行自然语言处理也是一个很重要的方向,因为在视频索引、自动影评生成,以及为视障人士生成视频描述等领域都有重要应用。注意力机制可以被用来识别视频中关键的 segment,也可以让深度学习网络关注图片和视频序列的某个部分。也就是说,在用卷积神经网络提取每帧特征后,再用 LSTM 挖掘它们之间的时序关系。J. Donahue 等人在 CVPR 2015 上的论文 Long-term Recurrent Convolutional Networks for Visual Recognition and Description 就描述了相关的技术,并为视频生成了自然语言描述。

赛题描述


TikTok 是全球领先的短视频平台,致力于建立一个用户分享和创作表达的短视频社区。2018 年,TikTok 成为全球下载量最大的应用之一。本次比赛由字节跳动公司旗下的 TikTok 短视频 APP 提供脱敏数据。 
本次竞赛提供多模态的短视频内容特征,包括视觉特征、文本特征和音频特征,同时提供了脱敏后的用户点击、喜爱、关注等交互行为数据。参赛者需要通过一个视频及用户交互行为数据集对用户兴趣进行建模,然后预测该用户在另一视频数据集上的点击行为。 
竞赛最终根据参赛者提交的模型和预测结果,通过构建深度学习模型,预测测试数据中每个用户 id 在对应作品 id 上是否浏览完作品和是否对作品点赞的概率加权结果。本次比赛使用 AUC(ROC 曲线下面积)作为评估指标。AUC 越高,代表结果越优,排名越靠前。
赛道1:大规模数据集,亿级别的数据信息。 
赛道2:小规模数据集,千万级别的数据信息。

Sent-Track冠军团队自述


团队介绍  
“我叫楼马晶,明略科技算法研究员,队伍的另外两名队友包括吴亚熙和练质彬。吴亚熙是京东的算法工程师,他和我是长期一起做数据挖掘比赛,我们一起获得过 2016 年的 CCF-BDCI 二等奖、第三届阿里云安全算法挑战赛亚军等比赛成绩。练质彬来自华南师范大学,是研究生二年级的学生,是这次比赛认识的新朋友,在比赛后期加入我们队伍。” 
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值