人体姿态估计
1.Introduction
主要贡献是提供了一个通用的框架,概况建在关节空间上通过学习多级的特征提取器来描述输入和输出空间中的丰富的结构。通过合并top-down反馈来实现这个框架,在反馈过程中,循环地预测当前估计的错误之处并且进行修正。这个框架被称为IEF。
在IEF中,前馈模型 f f f作用于被增强过的输入空间上,通过将RGB图像 I I I和估计得到的结果 y t y_t yt的视觉特征 g g g连接在一起来预测“修正的值( ε t ε_t εt)”,这样可以使 y t y_t yt更接近真实值 y y y。修正值( ε t ε_t εt)被用到当前的输出上 y t y_t yt来得到 y t + 1 y_{t+1} yt+1并且通过 g g g转换成视觉特征, 接下来被和图像叠加到一起得到新的 f f f的输入 x t + 1 = I ⊕ g ( y t ) x_{t+1}=I⊕g(y_t) xt+1=I⊕g(yt),然后如此循环下去。这个过程使用输出值 y 0 y_0 y0的猜测值初始化,并且重复至达到预先确定的值时结束。在每个循环中模型被训练到正确的范围内,使用一个范围值来调节 y t y_t yt的原因是因为 x t x_t xt空间是典型的高度非线性空间而且定位修正值应该比较容易学习到。模型可以用下面的公式描述:
ε t = f ( x t ) ε_t = f(x_t) εt=f(xt) y t + 1 = y t + ε t y_{t+1}=y_t+ε_t yt+1=yt+εt x t + 1 = I ⊕ g ( y t