论文: Convolutional Sequence to Sequence Model for Human Dynamics
论文地址: https://arxiv.org/abs/1805.00655
通过对mocap数据的学习,基于作者提出的新模型Convolutional Sequence to Sequence Model,实现对于人体运动的后几帧预测,对比之前基于RNN的residual unit based model在长期预测上做了改进,使得模型针对人体运动短期和长期预测都有较好的表现。
Table of Contents(目录)
Convolutional encoding module (CEM)
Background (论文背景)
作者主要对比RNN based method,针对自己选用Convolutional Sequence to Sequence Model的优势做了详尽的分析。
Discontinuity

这是之前在residual unit based model中就提到的问题,是预测的第一帧与真实值最后一帧的不连续问题。在该论文中提出通过添加residual unit,预测速度代替预测人体运动姿势本身解决的问题。但是作者发现在添加residual unit之后,模型的长期预测会形成近乎静态的,取平均值的预测,如图中RNN第一行的预测值。作者认为造成这样的原因在于RNN model很难记忆长期的信息,以至于在做长期预测时丢失了之前的信息。
Environment properties
人体运动预测很大程度上依赖于环境属性,例如牛顿定理,人体属性等。RNN很难学习到这些,而在不断的训练中累计的错误会造成长期预测的不正确。
Joints correlations
预测的成功关键之一在于捕捉学习关节结点之间的相关性,不只是时间上也需要空间上的。虽然RNN可以很好的学习到时间上的相关性,但是很难学习到空间上的相关性。
总结下来,RNN based models大都由两部分组成,由recurrent middle layers学习时间上的动态变化,最后由全链接层学习人体运动。作者的convolutional model则将重点放在同时学习空间和时间上动态变化的实现上。
Methodology(实现方法)
对于上述RNN所遇到的问题,作者提出分层的Convolutional Sequence to Sequence Model,可以同时学习时间上和空间上的动态变化。
Network Structure(模型结构)


本文解析了CVPR 2018上的一篇论文,提出了Convolutional Sequence to Sequence Model用于改善人体动态预测,特别是长期预测的准确性。相比RNN模型,新模型能更好地捕捉时空动态和关节相关性,通过对抗网络和dropout技术提升预测性能。
最低0.47元/天 解锁文章
1517

被折叠的 条评论
为什么被折叠?



