arxiv:https://arxiv.org/abs/1805.04668
作者首先训练了一个教师网络,它查看视频中的所有帧。然后训练一个学生网络,其目标是只处理视频中的一小部分帧,并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验,结果表明所提出的学生网络在性能下降很小的情况下,推理时间可以减少30%。
作者关注了一个最先进的模型,其性能在这个数据集上接近最好,将此模型作为教师网络,并训练了一个可比较的学生网络。在这项工作中,作者选择了分层RNN(hierarchical RNN)基模型。该模型假设每个视频包含一个由b个大小相等的块组成的序列。每一个块依次是m帧的序列,从而使整个视频成为序列的序列。每个块是m个1秒帧的集合。该模型包含一个较低级的RNN对帧序列进行编码,较高级别的RNN对块序列进行编码。教师网络查看所有N帧视频,并计算视频的编码,然后将其馈送到具有多类输出层的简单前馈神经网络,教师网络和输出层的参数使用标准的多标签分类损失L模型学习。学生网络只处理第j帧(F0,FJ , F2J,…FN-1)
N为视频总帧数
我们引入一个额外的损失函数,如下所示,它确保学生网络计算的表示与教师网络计算的表示非常相似。
我们还尝试了模型的一个简单变体