Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

paranoid_CNN

于 2017-09-11 15:04:55 发布

阅读量5.6k

点赞数

分类专栏： documents

本文链接：https://blog.csdn.net/paranoid_CNN/article/details/77933316

版权

documents 专栏收录该内容

8 篇文章

订阅专栏

DeepMind发布Kinetics视频数据集，包含400类行为，每类至少400个十秒片段。该数据集可用于行为识别模型训练，并通过迁移学习显著提升UCF101和HMDB51上的识别精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

时光荏苒，岁月如梭，恍惚间，一道白光闪现，空中一尊大佛低声喃语：小伙子，你，是不是太久没读论文了！于是，我开始补论文。简略记下，防止忘掉。

本文是deepmind出品，目的，就一个，放出个关于视频方面的训练集kinetics，一个四百个类，每个类有至少四百个clips，每个clips十秒钟，属于从youtube上剪切的视频，然后对比了几种现在存在的用于行为识别的几种框架，具体如下图：
这里写图片描述

其中，a，b，c，d是现有的做法，作者提出了e，唉，这种框架，感觉有点和前面没啥区别。然后，神奇的事情出现了：这个数据集上训练的模型，通过迁移学习到UCF101和HMDB51上，准确率惊人。
具体的网络：
这里写图片描述

做了如下几个事情：
第一：卷积核和pooling的核由二维扩展到三维。
第二：大的数据视频数据集上训练。
第三：迁移到UCF101，HMDB51，识别结果好。
实验结果：

是不是很惊喜，是不是，是不是，你收集的数据集，当然你说了算。