2018-A Teacher Student Network for Video Classification Using Fewer Frames

本文介绍了一种使用教师-学生网络进行视频分类的方法,旨在减少计算时间。教师网络处理所有帧,而学生网络仅处理视频的一小部分帧。在YouTube-8M数据集上的实验表明,学生网络在性能轻微下降的情况下,推理时间可以减少30%。学生网络的性能接近教师网络,尤其是在从视频中均匀采样帧时效果更佳。
摘要由CSDN通过智能技术生成

arxiv:https://arxiv.org/abs/1805.04668

作者首先训练了一个教师网络,它查看视频中的所有帧。然后训练一个学生网络,其目标是只处理视频中的一小部分帧,并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验,结果表明所提出的学生网络在性能下降很小的情况下,推理时间可以减少30%。
作者关注了一个最先进的模型,其性能在这个数据集上接近最好,将此模型作为教师网络,并训练了一个可比较的学生网络。在这项工作中,作者选择了分层RNN(hierarchical RNN)基模型。该模型假设每个视频包含一个由b个大小相等的块组成的序列。每一个块依次是m帧的序列,从而使整个视频成为序列的序列。每个块是m个1秒帧的集合。该模型包含一个较低级的RNN对帧序列进行编码,较高级别的RNN对块序列进行编码。教师网络查看所有N帧视频,并计算视频的编码,然后将其馈送到具有多类输出层的简单前馈神经网络,教师网络和输出层的参数使用标准的多标签分类损失L模型学习。学生网络只处理第j帧(F0,FJ , F2J,…FN-1)在这里插入图片描述
N为视频总帧数
我们引入一个额外的损失函数,如下所示,它确保学生网络计算的表示与教师网络计算的表示非常相似。在这里插入图片描述
我们还尝试了模型的一个简单变体

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值