人体行为识别：DT(密集轨迹)算法和iDT(改善的密集轨迹)算法总结

最新推荐文章于 2025-04-20 20:02:09 发布

MemoryLix

最新推荐文章于 2025-04-20 20:02:09 发布

阅读量1.6w

点赞数 10

文章标签：计算机视觉行为识别

本文链接：https://blog.csdn.net/MemoryHeroLi/article/details/82493879

版权

Note:

DT算法来自论文"Dense Trajectories and Motion Boundary Descriptors for Action Recognition"
iDT算法来自论文"Action Recognition with Improved Trajectories"

1. 密集轨迹算法（DT）

算法基本框架

密集采样特征点
特征点轨迹跟踪
基于轨迹的特征提取
特征编码
分类器分类

如图所示即为算法的基本框架，包括密集采样特征点，特征点轨迹跟踪和基于轨迹的特征提取几个部分。后续的特征编码和分类过程则没有在图中画出。

1.1 密集采样特征点

密集采样特征点具体分为如下几个步骤：

将视频的每一帧图片划分为多个尺度，一般8个空间尺度就够了；
在每个尺度的图片上通过网格划分的方式密集采样特征点，网格大小通常取W=5；
去除一些缺乏变化的无法跟踪的特征点，通过计算像素点自相关矩阵的特征值，去除低于某个阈值的特征点；

下一步的目标就是在时间序列上跟踪这些特征点，从而形成轨迹。

1.2 特征点轨迹跟踪

设上一步中密集采样到的某个特征点的坐标为 $P_t=(x_t, y_t)$ ,则我们可以用公式来计算该特征点在下一帧图像中的位置 $P_{t+1}=(x_{t+1}, y_{t+1})$ 。(具体见论文）
某个特征点在连续的L帧图像上的位置即构成了一段轨迹 $P_t, P_{t+1}, ...,P_{t+L})$ ，后续特征提取即沿着各个轨迹进行。文中L=15.

1.3 基于轨迹的特征提取

（1）轨迹描述子

对于一个长度为L的轨迹，其形状可以用 $ΔP_t,...,ΔP_{t+L−1})$ 来描述，
其中位移矢量：
$ΔP_t=(P_{t+1}−P_t)=(x_{t+1}−x_t,y_{t+1}−y_t)$
则轨迹特征描述子为：
$T=\frac{(ΔP_{t},...,ΔP_{t+L-1})}{∑_{t+L-1}^{j=t}||ΔP_j||}$
故最终得到的轨迹特征为L*2=30维。（15帧图片，每帧分别在x，y方向的位移矢量）。

（2）运动/结构描述子(包括HOF,HOG和MBH)

沿着某个特征点的长度为L的轨迹，在每帧图像上取特征点周围的大小为N×N的区域，则构成了一个时间-空间体（volume），如算法基本框架图的右半部分所示。对于这个时间-空间体，在进行一次网格划分，空间上每个方向上分为 $n_σ$ 份，时间上则均匀选取 $n_τ$ 份。故在时间-空间体中共分出 $n_σ×n_σ×n_τ$ 份区域用作特征提取。在DT/iDT中，取 $N=32,n_σ=2,n_τ=3$ ,接下来对各个特征的提取细节进行介绍。

HOG特征: HOG特征计算的是灰度图像梯度的直方图。直方图的bin数目取为8。故HOG特征的长度为96（223*8）。
HOF特征: HOF计算的是光流（包括方向和幅度信息）的直方图。直方图的bin数目取为8+1，前8个bin于HOG相同，额外的一个bin用于统计光流幅度小于某个阈值的像素。故HOF的特征长度为108（223*9）。
MBH特征: MBH计算的是光流图像梯度的直方图，也可以理解为在光流图像上计算的HOG特征。由于光流图像包括x方向和y方向，故分别计算MBHx和MBHy。MBH总的特征长度为192（2*96）。