视频插帧数据集

Vimeo-90K

Vimeo-90K是在论文Video Enhancement with Task-Oriented Flow(IJCV 2019)里提出的,数据集地址: http://toflow.csail.mit.edu/


图源http://toflow.csail.mit.edu/

整个数据集是从vimeo.com网站上收集的89800个视频片段上生成的,涵盖了多种场景和多种运动形态。
数据集包含两个子集,一个是“Triplet dataset”,一个是“Septuplet dataset ”。
Triplet dataset每组数据包含连续的三帧序列,分辨率是448x256,一共73171组,训练集和测试集共33GB, 可用于视频插帧、慢动作。
Septuplet dataset每组数据包含连续的七帧序列,分辨率同样是448x256,一共91701组,训练集和测试集共82GB,可用于视频降噪、超分。

X4K1000FPS


X4K1000FPS出自论文eXtreme Video Frame Interpolation(ICCV2021 Oral),数据集地址:https://github.com/JihyongOh/XVFI
数据集的特点是高分辨率(4096X2160),高帧率(1000fps),运动幅度大。


图源XVFI,图下方数字是光流的平均差异,数值越大表示运动幅度越大。


X4K1000FPS是由Phantom Flex4K专业摄像机采集的,拍摄了175个视频场景片段,每个视频片段时长5s,包含5000帧序列。
X4K1000FPS分成了两部分,X-TEST和X-TRAIN,X-TEST由15个视频片段组成,每个视频片段的序列长度是33帧,测试集的选择考虑了遮挡程度,光流大小和场景的多样性。X-TRAIN来自110个场景的各类运动场景的4408个片段,每个片段的序列长度是65帧,统一裁剪为768X768大小。


图源XVFI 
X4K1000FPS的遮挡和光流差异大于Vimeo90K和Adobe240fps

GOPRO_Large_all


GOPRO_Large_all出自论文Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring(CVPR 2017),数据集地址:https://seungjunnah.github.io/Datasets/gopro.html
GOPRO_Large_all数据集是为图像去模糊任务而收集设立的,使用的相机是GOPRO4 Hero Black,频率帧率是240fps,作为去模糊任务的用法是平均连续的15帧的结果作为模糊帧,15帧中的中间帧作为清晰帧,两者组成模糊清晰对加入训练。

GOPRO_Large_all数据集分成了train和test两部分,train部分包含22个视频片段,test部分包含11个视频片段,train和test每个视频片段含有约1100个视频帧。


图源https://seungjunnah.github.io/Datasets/gopro.html

GOPRO_Large整体清晰度不高,噪声比较明显,不太适合用于插帧任务。

REDS和REDS_VTSR

REDS是GOPRO_Large_all的升级版,用于NTIRE2019视频去模糊挑战任务中的数据集,有两个版本,一个是24fps,一个是120fps。数据集地址:https://seungjunnah.github.io/Datasets/reds

 图源https://seungjunnah.github.io/Datasets/reds

REDS_VTSR(Realistic and Dynamic Scenes dataset for Video Temporal Super-Resolution)数据集旨在建立一个用于超分和插帧的真实动态场景数据集,分为3类,帧率分别是15,30和60,三类其实是互相包含的关系,都是从fps120的视频帧中抽取的。REDS_VTSR数据集用于 AIM 2019 和 AIM 2020 挑战赛,数据集地址https://seungjunnah.github.io/Datasets/reds_vtsr

 图源https://seungjunnah.github.io/Datasets/reds_vtsr

UCF101

UCF101是中佛罗里达大学(University of Central Florida)在2012年建立的,是对UCF50数据的扩展,论文地址: https://www.crcv.ucf.edu/papers/UCF101_CRCV-TR-12-01.pdf , 数据集地址: https://www.crcv.ucf.edu/data/UCF101.php

UCF101是从YouTube上收集的包含有101个动作类别的视频数据集,101个动作类别大概划分为五类(人与物体的互动、身体动作、人与人的互动、乐器演奏、体育)一共有13320个视频。


图源https://www.crcv.ucf.edu/data/UCF101.php

其他数据集


Adobe-240fps


Adobe 240-fps dataset是在论文Deep Video Deblurring for Hand-held Cameras (CVPR 2017)里提出的,用于视频降噪,项目主页http://www.cs.ubc.ca/labs/imager/tr/2017/DeepVideoDeblurring/
团队使用iPhone6s,GpPro Hero 4 和 Canon 7D三种手持相机拍摄了133个视频,平均每个视频时长3-5s。

UCF YouTube Action Dataset

数据集出自论文Recognizing Realistic Actions from Videos “in the Wild” (cvpr2009),项目主页 http://www.cs.ucf.edu/~liujg/YouTube_Action_dataset.html
一共包含11个动作类别,主要用于视频动作分类,视频的清晰度很差,不太适用于视频插帧任务。

SlowFlow

SlowFlow数据集包含46个用专业高速摄像机拍摄的视频,项目主页 http://www.cvlibs.net/projects/slow_flow/

DAVIS
Middlebury

### 视频技术在UCF101测试集上的应用 视频技术旨在提高视频的质量和平滑度,特别是在处理高速运动场景时。FLAVR作为一种先进的视频值方法,已经在多个基准数据集上展示了卓越的表现[^2]。 #### FLAVR在UCF101测试集的应用 FLAVR模型通过使用3D时空卷积实现了端到端的学习和推理过程,这使得其能够在不依赖于光流或深度图的情况下有效处理非线性运动、复杂遮挡等问题。当应用于UCF101测试集时,FLAVR不仅保持了高精度的值效果,还显著提升了推理速度,达到了现有最优多值方法三倍的速度优势。 为了验证FLAVR的有效性,在UCF101测试集中选择了多种具有挑战性的动作类别进行评估。结果显示,无论是在简单的平移移动还是复杂的旋转跳跃场景下,FLAVR均能稳定地生成高质量中间,并且与原始视频内容高度匹配。此外,通过对不同时间段内的连续序列进行分析发现,FLAVR所创建的新能够自然过渡,不会出现明显的伪影现象。 ```python import torch from flavr_model import FLAVR # 假设这是预训练好的FLAVR模型库 model = FLAVR(pretrained=True) def interpolate_frames(input_video_path, output_video_path): video_tensor = load_video_to_tensor(input_video_path) with torch.no_grad(): interpolated_video_tensor = model(video_tensor.unsqueeze(0)).squeeze() save_tensor_as_video(interpolated_video_tensor, output_video_path) interpolate_frames('ucf101_test_set.mp4', 'flavr_interpolated_ucf101.mp4') ``` 此代码片段展示了一个简化版的过程,用于加载UCF101测试集中的视频文件并调用`FLAVR`类来进行补操作。最终结果会被保存成新的MP4格式文件供进一步审查。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值