视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文

作者丨文永亮

学校丨哈尔滨工业大学(深圳)硕士生

研究方向丨视频预测、时空序列预测

ICCV 2019

这是卡耐基梅隆和 Facebook 的一篇 paper,这篇论文的关键在于分解实体预测再组成,我们观察到一个场景是由不同实体经历不同运动组成的,所以这里提出的方法是通过隐式预测独立实体的未来状态,同时推理它们之间的相互作用,并使用预测状态来构成未来的视频帧,从而实现了对实体分解组成的视频预测。 

该论文使用了两个数据集,一个是包含可能掉落的堆叠物体 ShapeStacks,另一个包含人类在体育馆中进行活动的视频 Penn Action,并表明论文的方法可以在这些不同的环境中进行逼真的随机视频预测。

主要架构有下面三个部分组成: 

1. Entity Predictor(实体预测模块):预测每一个实体表示的未来状态;

2. Frame Decoder(帧解码器):从实体表示中解码成 frame;

3. Encoder(编码器):把 frame 编码成 u 作为 LSTM 的 cell-state 得到输出记录时序信息(最后其实就是 concat 进去,见如下)。


https://github.com/JudyYe/CVP/blob/c176a508e6cbddd60b932b76af8931f774e2efa0/cvp/graph.py#L349

obj_vecs = torch.cat([pose, bbox, diff_z], dim=-1)

模型将具有已知或者检测到的实体位置的图像作为输入。每个实体均表示为其位置和隐式特征。每个实体的表示为表示为预测的位置,表示为隐式特征,这样的分解方便我们高效地预测每一个实体的未来状态,给定当前实体表示形式和采样的潜在变量,我们的预测模块将在下一个时间步预测这些表示形式。我们所学的解码器将预测的表示组合为代表预测的未来的图像。在训练期间,使用潜在编码器模块使用初始帧和最终帧来推断潜在变量的分布。 

分解的思想一般都用 mask 来体现,就是把变化的与不变的用掩码表示后在组合起来,预测变化的部分,这是分而治之的思想。 

表示在 g 的网络结构下解码每一个实体的特征和空间掩码,让 W 表示类似 Spatial Transformer Networks 的空间变化网络,可以得到下面的实体的特征和掩码

通过权重掩码和各个特征的结合最后取平均,这样我们就得到图像级别的特征,即每一帧的特征,是常数的空间掩码(论文取值为 0.1),其组成的特征表示如下:

上面的公式很好理解,⊙ 是像素乘法,⊕ 是像素加法,这个是加权后的背景特征与加权后的每个实体的特征的总和,最后除以权重和。这样就得到了解码的结果。

编码器的作用是把各帧编码成 u,u 的分布服从标准正态分布,所以需要拉近两者之间的 KL 散度,u 作为 cell-state 输入 LSTM 得到表示时间序列的隐状态。

解码损失就是实体表示

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值