YouTube-8M: A Large-Scale Video Classiﬁcation Benchmark简介

最新推荐文章于 2024-04-18 09:42:52 发布

loserChen.

最新推荐文章于 2024-04-18 09:42:52 发布

阅读量5.9k

点赞数

分类专栏：论文学习文章标签： youtube-8m 论文视频分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35564813/article/details/89083830

版权

YouTube-8M是一个大型视频分类基准，使用预训练的Deep CNN从每秒一帧的视频中提取特征，研究了帧级和视频级的表示方法，包括logistic回归、LSTM和混合专家模型等。实验表明，LSTM在数据增强策略下表现出色，该数据集对视频理解和表征学习有推动作用。

摘要由CSDN通过智能技术生成

YouTube-8M: A Large-Scale Video Classiﬁcation Benchmark

Abstract

作者以1帧每秒的速度解码视频，同时利用预训练在imagenet上的Deep CNN来抽取隐藏的表征。

Introduction

作者首先利用youtube 视频标注系统对youtube-8m进行标注，同时利用包括人力手动过滤的过滤规则对标签进行相应的筛选

同时作者也提出youtube-8m的数据量较大以及种类的多样性，对进一步视频理解与表征学习有进一步的促进作用。

Feature

作者将视频的前六分钟以一帧每秒来解码，将其喂进Inception network，将最后一层隐藏层的relu激活后的输出作为特征表示。每秒的视频都是2048维。同时移除了动作的特征，研究表明随着视频的大小与多样性的提升，效果会递减。

后续，作者使用了PCA+白化处理，量化来对数据进行压缩，同时作者说明了大小的变化只会造成1%的变化。

Models from Frame Features

对于frame-level的特征，作者给出了三种参考方法：logistic+average，deep bag of frames，lstm。

Video level representations

作者提出利用f

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。