摘要
建模特定于动作的外观模型和姿态先验合并成高级特征用于姿态估计和动作识别
即用 动作语义信息(action label)+姿态特征 做多任务,证明姿态和动作两任务互利。
引言
1.问题:图像结构模型(PS)很难应对人类姿态和外貌的巨大变化
2.思路:动作类别信息有利于姿态估计
3.创新点:提出了动作条件图像结构(ACPS)模型,即依赖于动作类的先验分布,该模型融合了动作先验知识,并且学习动作类之间的共享信息。
4.方法概述:随机森林 + 条件随机场 + 动作先验
方法
4. Pictorial Structure
主要是利用了两层随机森林,第一层用于做姿态估计定位,第二层用于父节点约束子节点进行优化定位。
其中j为关节点下标,代表
的2D坐标,I为图片,
为一元Potentials,即结构图中1所示的随机森林,用于对关节点j定位,
为二元Potentials,即结构图中2所示的随机森林,用于父节点p约束子节点j。
4.1 一元Potentials
结构图中1所示,一元Potentials = VGG16 + 回归森林
VGG16结构如下,值得注意的是特征是进行上采样后融合的
回归森林F由一组随机回归树T组成,每个节点代表一个弱分类器,将image patch P传递到左右子节点
训练时,每棵树都用训练集进行抽样学习,将关节点位置标注周围像素作为前景,其他作为背景,每个patch包含联合标签c ∈ {0, j},一组图像特征,和2D偏移量
,叶子节点预测类概率
和偏移量的分布概率
测试时,以位置y为中心的每个patch在叶子节点结束,其中每棵树
表示P(叶子节点预测的节点为j) * P(偏移量的分布概率),即为关节点j的分布预测
4.2 二元Potentials
如结构图2所示,表示父节点P约束子节点j,约束方法同样是训练集统计p与j的相对位置,通过k-means聚类,每个类用加权高斯分布来表示:
其中,为均值,
为协方差,
,
根据聚类频率
来计算的,
最后通过最大边缘值来为每个关节点选择最佳簇k。
5. Action Conditioned Pose Estimation
将distribution P(a)引入Pictorial Structure中
5.1. Action Conditioned Pictorial Structure
代表结构图中3所示,也即是不同动作下
本文还将P(a)简化:
5.1.1 Conditional Joint Regressors
用动作标签来增强学习,动作类a上的分布:
5.1.2 Appearance Sharing Across Actions
本文作者认为不同动作之间也是有相似特征的,动作a与动作a'应该有个相似权重,
如何学习共享权重:
即算动作标签为a的图片与真实值的误差,再经过argmax,
最后用平滑操作,得到最后预测结果:
6.实验
1.VGG那块的特征消融
2.模型组合消融
3.sub-J-HMDB大表
4.Penn Action dataset大表
5.动作识别