Masked Autoencoders As Spatiotemporal Learners

Masked Autoencoders As Spatiotemporal Learners

一、文章背景

用于视频中的时间信息学习。
基本思想是重构,使用的类似于BERT的mask 然后reconstruct的方式。

We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels.
在mask的比例设置上,根据信息的冗杂度,在文本上bert是使用了15% ,在图片数据上是使用了75%,在视频video数据集上是使用了90%。

在这里插入图片描述
训练过程中存在的问题,视频加载速度慢,解决方式是采用对一个视频repeat sample的方式。
每次加载和解压一个原始视频时,我们都会从中抽取多个(默认为4个)样本。 这减少了每个样本的数据加载和解压时间
Each time a raw video is loaded and decompressed, we take multiple (4 by default) samples from it. This reduces the data loading and decompressing time per sample.

二、文章变量

1 mask sampling 方式

在这里插入图片描述
(a): 随机抽样是与空间时间无关的。(b): 仅限空间的随机抽样,广播到所有的时间步骤("管子 "屏蔽[77])。©: 仅限时间的随机抽样,广播到所有空间位置("框架 "掩蔽[77])。(d): 在时空中进行块状取样[3],去除大区域("立方体 "掩蔽[77])。在这个插图中,T×H×W是8×14×14;绿色标记被保留,其他标记被屏蔽掉了

2 Mask ratio

BERT[15]对语言使用15%的掩蔽率,MAE[31]对图像使用75%的掩蔽率,这表明图像比语言更具有信息冗余性。我们在视频上的经验结果支持这一假设。我们观察到的最佳掩蔽率是90%

3 其余的ablation studies

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值