Masked Autoencoders As Spatiotemporal Learners

最新推荐文章于 2024-08-05 07:03:02 发布

YingJingh

最新推荐文章于 2024-08-05 07:03:02 发布

阅读量715

点赞数

分类专栏：论文记录文章标签：人工智能

本文链接：https://blog.csdn.net/Hekena/article/details/131163499

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

Masked Autoencoders As Spatiotemporal Learners

文章目录

Masked Autoencoders As Spatiotemporal Learners

一、文章背景

用于视频中的时间信息学习。
基本思想是重构，使用的类似于BERT的mask 然后reconstruct的方式。

We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels.
在mask的比例设置上，根据信息的冗杂度，在文本上bert是使用了15% ，在图片数据上是使用了75%，在视频video数据集上是使用了90%。

在这里插入图片描述
训练过程中存在的问题，视频加载速度慢，解决方式是采用对一个视频repeat sample的方式。
每次加载和解压一个原始视频时，我们都会从中抽取多个（默认为4个）样本。这减少了每个样本的数据加载和解压时间
Each time a raw video is loaded and decompressed, we take multiple (4 by default) samples from it. This reduces the data loading and decompressing time per sample.

二、文章变量

1 mask sampling 方式

在这里插入图片描述
(a): 随机抽样是与空间时间无关的。(b): 仅限空间的随机抽样，广播到所有的时间步骤（"管子 "屏蔽[77]）。©: 仅限时间的随机抽样，广播到所有空间位置（"框架 "掩蔽[77]）。(d): 在时空中进行块状取样[3]，去除大区域（"立方体 "掩蔽[77]）。在这个插图中，T×H×W是8×14×14；绿色标记被保留，其他标记被屏蔽掉了

2 Mask ratio

BERT[15]对语言使用15%的掩蔽率，MAE[31]对图像使用75%的掩蔽率，这表明图像比语言更具有信息冗余性。我们在视频上的经验结果支持这一假设。我们观察到的最佳掩蔽率是90%。

3 其余的ablation studies

在这里插入图片描述

YingJingh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Masked Autoencoders As Spatiotemporal Learners

(a): 随机抽样是与空间时间无关的。(b): 仅限空间的随机抽样，广播到所有的时间步骤（"管子 "屏蔽[77]）。©: 仅限时间的随机抽样，广播到所有空间位置（"框架 "掩蔽[77]）。在mask的比例设置上，根据信息的冗杂度，在文本上bert是使用了15% ，在图片数据上是使用了75%，在视频video数据集上是使用了90%。BERT[15]对语言使用15%的掩蔽率，MAE[31]对图像使用75%的掩蔽率，这表明。基本思想是重构，使用的类似于BERT的mask 然后reconstruct的方式。
复制链接

扫一扫