从单目视频学习捕捉人体运动估计三维人体姿态和形状
现有的方法主要依靠循环或卷积运算对这些时间信息进行建模,这限制了捕捉人体运动非局部上下文关系的能力。
GAP:自注意模块(非局部块)计算的注意map不稳定,容易导致注意力偏移,忽略主要目标物的动作或特征。
可通过引入NSSM先验知识,扩展自注意模块的学习,自适应重新校准序列中需要注意的问题,获得特征连续性依赖。
注意力MAP:红色-高注意,蓝色-低注意;
注意力机制与视觉相关工作:(它能够捕获长期依赖关系,并有选择地集中于输入的相关子集。)
[5] Ding-Jie Chen, He-Yen Hsieh, and Tyng-Luh Liu. Adaptive image transformer for one-shot object detection. In CVPR, 2021. 3
[9] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua