2018-A Teacher Student Network for Video Classification Using Fewer Frames

最新推荐文章于 2024-07-10 16:55:08 发布

半分热度

最新推荐文章于 2024-07-10 16:55:08 发布

阅读量348

点赞数

分类专栏：视频分类 YouTube-8M 文章标签： cv

本文链接：https://blog.csdn.net/qq_41956697/article/details/114776615

版权

本文介绍了一种使用教师-学生网络进行视频分类的方法，旨在减少计算时间。教师网络处理所有帧，而学生网络仅处理视频的一小部分帧。在YouTube-8M数据集上的实验表明，学生网络在性能轻微下降的情况下，推理时间可以减少30%。学生网络的性能接近教师网络，尤其是在从视频中均匀采样帧时效果更佳。

摘要由CSDN通过智能技术生成

arxiv:https://arxiv.org/abs/1805.04668

作者首先训练了一个教师网络，它查看视频中的所有帧。然后训练一个学生网络，其目标是只处理视频中的一小部分帧，并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验，结果表明所提出的学生网络在性能下降很小的情况下，推理时间可以减少30%。
作者关注了一个最先进的模型，其性能在这个数据集上接近最好，将此模型作为教师网络，并训练了一个可比较的学生网络。在这项工作中，作者选择了分层RNN（hierarchical RNN）基模型。该模型假设每个视频包含一个由b个大小相等的块组成的序列。每一个块依次是m帧的序列，从而使整个视频成为序列的序列。每个块是m个1秒帧的集合。该模型包含一个较低级的RNN对帧序列进行编码，较高级别的RNN对块序列进行编码。教师网络查看所有N帧视频，并计算视频的编码，然后将其馈送到具有多类输出层的简单前馈神经网络，教师网络和输出层的参数使用标准的多标签分类损失L模型学习。学生网络只处理第j帧（F0，FJ , F2J,…FN-1）在这里插入图片描述
N为视频总帧数
我们引入一个额外的损失函数，如下所示，它确保学生网络计算的表示与教师网络计算的表示非常相似。
我们还尝试了模型的一个简单变体

最低0.47元/天解锁文章

半分热度

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2018-A Teacher Student Network for Video Classification Using Fewer Frames

arxiv:https://arxiv.org/abs/1805.04668作者首先训练了一个教师网络，它查看视频中的所有帧。然后训练一个学生网络，其目标是只处理视频中的一小部分帧，并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验，结果表明所提出的学生网络在性能下降很小的情况下，推理时间可以减少30%。作者关注了一个最先进的模型，其性能在这个数据集上接近最好，将此模型作为教师网络，并训练了一个可比较的学生网络。在这项工作中，作者选择了分层RNN（hierarchical RN
复制链接

扫一扫

专栏目录