视频插帧数据集

-牧野-

已于 2022-02-18 15:25:52 修改

阅读量1w

点赞数 11

文章标签：音视频

于 2022-02-16 17:20:29 首次发布

本文链接：https://blog.csdn.net/dcrmg/article/details/122967438

版权

Vimeo-90K

Vimeo-90K是在论文Video Enhancement with Task-Oriented Flow（IJCV 2019）里提出的，数据集地址： http://toflow.csail.mit.edu/

图源http://toflow.csail.mit.edu/

整个数据集是从vimeo.com网站上收集的89800个视频片段上生成的，涵盖了多种场景和多种运动形态。
数据集包含两个子集，一个是“Triplet dataset”，一个是“Septuplet dataset ”。
Triplet dataset每组数据包含连续的三帧序列，分辨率是448x256，一共73171组，训练集和测试集共33GB，可用于视频插帧、慢动作。
Septuplet dataset每组数据包含连续的七帧序列，分辨率同样是448x256，一共91701组，训练集和测试集共82GB，可用于视频降噪、超分。

X4K1000FPS

X4K1000FPS出自论文eXtreme Video Frame Interpolation（ICCV2021 Oral），数据集地址：https://github.com/JihyongOh/XVFI
数据集的特点是高分辨率（4096X2160），高帧率（1000fps），运动幅度大。

图源XVFI，图下方数字是光流的平均差异，数值越大表示运动幅度越大。

X4K1000FPS是由Phantom Flex4K专业摄像机采集的，拍摄了175个视频场景片段，每个视频片段时长5s，包含5000帧序列。
X4K1000FPS分成了两部分，X-TEST和X-TRAIN，X-TEST由15个视频片段组成，每个视频片段的序列长度是33帧，测试集的选择考虑了遮挡程度，光流大小和场景的多样性。X-TRAIN来自110个场景的各类运动场景的4408个片段，每个片段的序列长度是65帧，统一裁剪为768X768大小。

图源XVFI
X4K1000FPS的遮挡和光流差异大于Vimeo90K和Adobe240fps

GOPRO_Large_all

GOPRO_Large_all出自论文Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring（CVPR 2017），数据集地址：https://seungjunnah.github.io/Datasets/gopro.html
GOPRO_Large_all数据集是为图像去模糊任务而收集设立的，使用的相机是GOPRO4 Hero Black，频率帧率是240fps，作为去模糊任务的用法是平均连续的15帧的结果作为模糊帧，15帧中的中间帧作为清晰帧，两者组成模糊清晰对加入训练。

GOPRO_Large_all数据集分成了train和test两部分，train部分包含22个视频片段，test部分包含11个视频片段，train和test每个视频片段含有约1100个视频帧。

图源https://seungjunnah.github.io/Datasets/gopro.html

GOPRO_Large整体清晰度不高，噪声比较明显，不太适合用于插帧任务。

REDS和REDS_VTSR

REDS是GOPRO_Large_all的升级版，用于NTIRE2019视频去模糊挑战任务中的数据集，有两个版本，一个是24fps，一个是120fps。数据集地址：https://seungjunnah.github.io/Datasets/reds

图源https://seungjunnah.github.io/Datasets/reds

REDS_VTSR（Realistic and Dynamic Scenes dataset for Video Temporal Super-Resolution）数据集旨在建立一个用于超分和插帧的真实动态场景数据集，分为3类，帧率分别是15,30和60，三类其实是互相包含的关系，都是从fps120的视频帧中抽取的。REDS_VTSR数据集用于 AIM 2019 和 AIM 2020 挑战赛，数据集地址https://seungjunnah.github.io/Datasets/reds_vtsr

图源https://seungjunnah.github.io/Datasets/reds_vtsr

UCF101

UCF101是中佛罗里达大学（University of Central Florida）在2012年建立的，是对UCF50数据的扩展，论文地址： https://www.crcv.ucf.edu/papers/UCF101_CRCV-TR-12-01.pdf , 数据集地址： https://www.crcv.ucf.edu/data/UCF101.php

UCF101是从YouTube上收集的包含有101个动作类别的视频数据集，101个动作类别大概划分为五类（人与物体的互动、身体动作、人与人的互动、乐器演奏、体育）一共有13320个视频。

图源https://www.crcv.ucf.edu/data/UCF101.php

其他数据集

Adobe-240fps

Adobe 240-fps dataset是在论文Deep Video Deblurring for Hand-held Cameras （CVPR 2017）里提出的，用于视频降噪，项目主页http://www.cs.ubc.ca/labs/imager/tr/2017/DeepVideoDeblurring/
团队使用iPhone6s,GpPro Hero 4 和 Canon 7D三种手持相机拍摄了133个视频，平均每个视频时长3-5s。

UCF YouTube Action Dataset

数据集出自论文Recognizing Realistic Actions from Videos “in the Wild” （cvpr2009），项目主页 http://www.cs.ucf.edu/~liujg/YouTube_Action_dataset.html
一共包含11个动作类别，主要用于视频动作分类，视频的清晰度很差，不太适用于视频插帧任务。