UCAS - AI学院 - 计算机视觉专项课 - 第10讲 - 课程笔记

最新推荐文章于 2023-07-21 16:43:46 发布

支锦铭

最新推荐文章于 2023-07-21 16:43:46 发布

阅读量431

点赞数

分类专栏： UCAS-课程笔记文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/cary_leo/article/details/106336768

版权

37 篇文章 10 订阅

订阅专栏

表达与识别

在这里插入图片描述

通过物体跟踪，可以得到物体特征点的轨迹
关键：正确表述物体运动状态（特征点选取、轨迹的描述）
特征点集合的轨迹描述
- 直接按照时间顺序连接相邻帧之间的特征点
- 将特征点集合拟合成不同的多项式曲线
- 其他方法（主曲线等）
  - 主曲线：一条空间曲线，从数据的中部光滑地通过，且不限制于对数据的光滑线性平均，甚至不限制于数据的中部是直线，只使得数据点集合到该曲线的正交距离最小
应用
- 交通监控，表述车辆、行人行动路线
- 动作、手势识别，表述运动物体或肢体局部的简单运动
- 人机接口
Cons
- 只能粗略地表述物体全局的运动信息
- 无法描述运动细节
- 没有有效体现时间信息

将图像序列的前景运动信息和时间信息用一张图表述出来
- 运动能量图MEI
- 运动历史图MHI
- 其他运动图
运动能量图
- 前提：帧间差分得到前景的二值图像
- 将视频序列中所有帧的前景二值化图像求并集
- 记 $D (x, y, t)$ 为第 $t$ 帧与第 $t - 1$ 帧差分得到的二值化前景，则运动能量图为 $E_{\tau}(x, y, t) = \bigcup_{i = 0}^{\tau - 1} D(x, y, t - i)$ ，其中 $\tau$ 为一个动作的运动时间
- 问题：没有明显的运动时间行进方向
运动历史图
- 前提：帧间差分得到前景的二值图像
- 记 $D (x, y, t)$ 为第 $t$ 帧与第 $t - 1$ 帧差分得到的二值化前景，则运动历史图为 $H_{\tau}(x, y, t) = \begin{cases}\tau & D(x, y, t) = 1 \\ \max(0, H_{\tau}(x, y, t - 1) - 1) & otherwise\end{cases}$ ，其中 $\tau$ 为一个动作的运动时间
- 动作时序越接近当前帧，对应像素值越大
应用
- 行为、动作、手势识别
- 人机接口
Pros
- 较好地包含了全局运动、形状、时间信息
Cons
- 缺少局部运动信息，不能有效区分局部变化的动作
- 不能有效区分速度的变化

稀疏表达问题：给定 $\in R^m$ ， $[d_1, \dots, d_n] \in R^{m \times n} (m \le n)$ ，求解 $\alpha$
$\alpha$ 是一种稀疏表达，非零元素个数尽可能少，大多数信息来自于少部分元素的线性组合
数学表达：向量的0-范数（非零元素的个数）尽可能少
- $\min_\alpha \|\alpha\|_0$
- $\text{s.t.} \ x = D \alpha$
求解：在RIP条件下，其问题的解等于对应1-范数问题的解
- $\min_\alpha \|\alpha\|_1$
- $\text{s.t.} \ x = D \alpha$
算法： $\min_\alpha \|x - D \alpha\|_2^2 + \lambda \|\alpha\|_1 + regularizer$
应用：人脸识别
- 假设测试样本可以由训练样本表示
- 给定训练样本，构建人脸的稀疏表达
- 利用稀疏表达，由针对训练样本的最小重建损失确定标签

数学形式：表达矩阵的秩尽可能小
- $\min_\alpha \|\alpha\|_{rank}$
- $\text{s.t.} \ \bold X = D \alpha$
核范数（奇异值之和）简化
- $\min_\alpha \|\alpha\|_\ast$
- $\text{s.t.} \ \bold X = D \alpha$
进一步简化，直接由样本得到
- $\min_\alpha \|\alpha\|_\ast$
- $\text{s.t.} \ \bold X = \bold X \alpha$
优化细节（增量拉格朗日乘子方法）P45

人的行为分析难点
- 行为多样性（个体行为和交互行为）
- 遮挡情况复杂
- 衣物、阴影、光照变化等因素
人运动特殊性
- 运动类型（刚体 vs. 非刚体）
- 人的运动属于非刚体运动的一个子类——Articulated Motion（各部分刚体，整体非刚体）
行为识别——匹配时空数据
- 看作时变特征数据的分类问题
- 将待识别行为序列（测试序列）与预先标记好的代表典型行为参考序列进行匹配
- 必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化
方法
- 基于模板匹配的方法
- 基于状态转移图模型的方法

用输入图像序列提取的特征与在训练阶段预先保存好的模板进行相似性度量，选择与测试序列距离最小的已知模板的所属类别作为被测试序列的识别结果
方法
- Temporal Templates
- 动态时间规整DTW
Temporal Templates
- 将图像序列目标的运动信息转化为运动能量图像和运动历史图像
- 在图像上提取基于不变矩的运动特征(具有平移、旋转和尺度不变性)
- 采用马氏距离度量测试序列和模板之间的相似性
DTW
- 处理测试序列模式与参考序列模式的时间尺度不完全一致的情况
- 对两个向量 $C$ 和 $Q$ ，长度分别为 $m$ 和 $n$ ，DTW目标就是找到的一组路径 $w_1 \dots w_K$ ，其中 $w_k = (c_i, q_j)_k$ ，使得点对点给对应距离之和最小
- $\min (\frac 1K \sum_k \|c_i - q_j\|)$
- 满足条件
  - 首尾对齐： $w_1 = (c_1, q_1), w_k = (c_m, q_n)$
  - 单调性： $w_k = (a, b),\ w_{k - 1} = (a^\prime, b^\prime),\ 0 \le a - a^\prime \le 1,\ 0 \le b - b^\prime \le 1$
- 即使测试序列模式与参考序列模式的时间尺度不完全一致，只要时间次序约束存在，DTW就能较好地完成测试序列和参考序列之间的模式匹配

关注

专栏目录