中国人工智能学会通讯——基于视频的行为识别技术 1.4 早期行为识别方法

最新推荐文章于 2024-04-19 17:01:56 发布

weixin_34362991

最新推荐文章于 2024-04-19 17:01:56 发布

阅读量342

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/216012

版权

1.4 早期行为识别方法

下面讨论如何让计算机去识别视频中行为？首先，对于很多图像视频分类问题来讲，最核心地找到一个好的表示。下面我们先介绍如何利用非深度学习方法。早期做图像识别时，利用兴趣点和局部图像特征构建视频表示，这个方法可以被推广到视频。这是 IJCV2005 年发表的一篇论文，提出了 Spatial-temporal interest points 时空兴趣点，像下图中运动员当头顶到球的时候，在这个位置和这个时刻会形成一个识别兴趣点。

行为中包含的运动信息不仅仅是某一个点的运动或者某一个时刻的运动，而是一个连续的过程。因此运动轨迹可以为行为的描述提供丰富的信息。我们可以通过短时光流获取运动轨迹，并在视频中去密集地跟踪一些运动轨迹，沿着这些运动轨迹再提取一些图像区域。这些区域通常对于运动显著性区域，运动轨迹比原来点的描述更加丰富一些。

通常，沿着运动轨迹我们会提取三个类型的直方图特征。第一个是 HoG 梯度的直方图，这个是描述图像的。第二个是光流直方图 HoF，光流是描述运动很重要的信息，用于表示一个像素点到下一帧图像中 x、y 方向发生的偏移。最后一个是，MBH 运动边缘直方图。它是由光流沿着 x 方向和 y 方向去做一次差分梯度后获得。这样操作的好处在于可以把物体边缘的运动提取出来。

我们会在时空信息点，或者沿着运动的边缘，把 HoG、HoF、MBH 三种特征都抽出来。当然除了这三类还有其他局部特征，我们之前的一个工作就是把图像的梯度和光流进行联合编码，实验表明这样的方法可以提高识别率。对于给定的一个视频，可以在视频里可能找到很多点或者找到很多轨迹，在每个点、每条轨迹周围提取一个三维小的立方体；然后围绕这个立方体提取局部特征，包括 HoG、HoF 或者 MBH；接着采用 Bag of Visual Words 框架或其改进的方法，对局部特征进行编码，以获取全局表示。这个过程，设计很多环节，包括特征预处理、字典学习方法、参数的选择等，我们的一个工作就是把这些环节涉及的各种选择进行充分的对比，后面这个工作也被期刊 CVIU 录用，代码也公开了。后期不少论文引用了我们的工作。

在研究行为识别问题时，我们观察到一个问题，对视频来讲既有静态的特征，也有动态的特征。动态的特征像 HoF，这些特征联合使用可以提高识别率。怎么来用？一个简单的方法，可以把这些特征串起来，再去学习字典。但是这个方法效果并不好，因为串起来后特征维度高了，增大了字典学习的难度。因此，大家传统的做法就是，静态图像的特征和动态的光流分别学习字典，然后分别编码，这个方法可行性比较强，但忽略了特征间的相关性。我们提出把不同类型的局部特征进行联合编码，区分出共享的部分和各自独立的部分。这就需要一个更好的字典，这个字典不仅仅是对一种特征，而是对多种特征进行联合建模。

这里我们利用混合概率典型相关分析模型作为我们的字典。该字典可以对不同类型特征间相关部分和独立部分进行建模。实验表明，该方法可以提高识别率。

除此之外，我们还有其他工作，简单的分享一下。之前这些局部描述的一个缺陷就是仅仅描述局部区域能力有限，所以我们提取中层运动子 Motionlet 特征，这个中层特征是靠机器学习的方法从视频数据中学习获得的。我们还根据中层运动子特征构建运动词组 Motion Phrase，细节可以参见我们发表在 CVPR13 和 ICCV13 的论文。

weixin_34362991

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中国人工智能学会通讯——基于视频的行为识别技术 1.4 早期行为识别方法

1.4 早期行为识别方法下面讨论如何让计算机去识别视频中行为？首先，对于很多图像视频分类问题来讲，最核心地找到一个好的表示。下面我们先介绍如何利用非深度学习方法。早期做图像识别时，利用兴趣点和局部图像特征构建视频表示，这个方法可以被推广到视频。这是 IJCV2005 年发表的一篇论文，提出了 Spatial-temporal inter...
复制链接

扫一扫