暑假听了computer vision的一个Summer School,里面Jason J. Corso讲了他们运用Low-Mid-High层次结构进行Video Understanding 和 Activity Recognition的方法,受益颇深,在这里把他的方法总结一下:
-------------------------------------------------------------------------------------------------
1. 层次结构表示:
- 底层part 重用
- 每个object都是一个由有向和无向边连接起来的混合图
- 底层通过非线性学习让原子节点形成时空线、平面和区域
人的活动呢,就是这些object在中层和高层连接的混合图
2. Motion Perception——STS
Different action stimulate different subpopulation of cells.
3. Activity Recognition
Corso的方法:
- Low-Level:底层最effective的做法是Bag of Features,特征为bottom-up / low level的时空特征,随着时间和层次不断update。通过模版进行底层object检测;
- Mid-Level:中间层从images中检测、跟踪2D骨架pose,并通过背景内容分析动态pose;
- High-Level:高层活动组合方法为,将不同时间点的feature组成时间-概率模型。时间上进行feature的时空跟踪,概率上根据组成语法进行概率模型的组合。
- Recognition的另一种表示方法: