相关滤波跟踪·KCF公式详细推导

最新推荐文章于 2024-02-24 17:59:55 发布

拖延症真的有救

最新推荐文章于 2024-02-24 17:59:55 发布

阅读量2.3k

点赞数 8

分类专栏：跟踪镇圈大作梳理文章标签： KCF 核函数

本文链接：https://blog.csdn.net/qq_32763701/article/details/84204413

版权

跟踪镇圈大作梳理专栏收录该内容

3 篇文章 15 订阅

订阅专栏

因为KCF算法和CSK基本一样，因此关于KCF的笔记仅记录从section 4 开始的公式推导和理解。
为了表述清楚，本文所有小写加粗符号表示列向量，小写不加粗表示元素或参量，大写符号表示矩阵。

4 Building blocks

4.1 Linear regression

通过岭回归（ridge regression）或支持向量机（SVM）
$\min_{\mathbf{w}}\sum_{i}^{n}(f(\mathbf{x}_{i})-y_{i})^2+\lambda\| \mathbf{w} \|^2$
分类器 $f(\mathbf{x}_{i})=\mathbf{w}^T\mathbf{x}_{i}$
所以上式 $\begin{aligned} &=\min_{\mathbf{w}}\sum_{i}^{n}(\mathbf{w}^T\mathbf{x}_{i}-y_{i})^2+\lambda\| \mathbf{w} \|^2\\ &=\min_{\mathbf{w}}\|X\mathbf{w}-\mathbf{y}\|^2+\lambda\| \mathbf{w} \|^2\\ &=(X\mathbf{w}-\mathbf{y})^T(X\mathbf{w}-\mathbf{y})+\lambda\mathbf{w}^T\mathbf{w}\\ \end{aligned}$
接下来是矩阵的求导，这里是分子布局(numerater layout)的标量/向量情况
$\begin{aligned} \frac{\partial[...] }{\partial \mathbf{w}} &=2(X\mathbf{w}-\mathbf{y})^T \frac{\partial}{\partial \mathbf{w}}(X\mathbf{w}-\mathbf{y}) +2\lambda \mathbf{w}^T\\ &=2(X\mathbf{w}-\mathbf{y})^T \frac{\partial}{\partial \mathbf{w}}(X\mathbf{w}) +2\lambda \mathbf{w}^T\\ &=2(X\mathbf{w}-\mathbf{y})^T X +2\lambda \mathbf{w}^T \end{aligned}$
令 $\frac{\partial[...] }{\partial \mathbf{w}}=0$ ，有
$\begin{aligned} \mathbf{w}^TX^TX-\mathbf{y}^TX+\lambda \mathbf{w}^T=0\\ \mathbf{w}^T(X^TX+\lambda I)=\mathbf{y}^TX\\ \mathbf{w}^T=(XX^T+\lambda I)^{-1}\mathbf{y}^TX\\ \mathbf{w}=(XX^T+\lambda I)^{-1}X^T\mathbf{y} \end{aligned}$
因为后续会变换到傅里叶域，所以将 $X^T$ 处理为 $X^*)^T$ ，记为 $X^H$ ，所以 $\mathbf{w}=(XX^H+\lambda I)^{-1}X^H\mathbf{y}$

4.2 Cyclic shift 4.3 Circulant matrics

引入循环矩阵增加样本量，首先讨论一维样本 $\mathbf{x}$ 的情况（n*1)
在这里插入图片描述
$P\mathbf{x}=[x_{n}x_{1} x_{2}......x_{n-1}]^T$
$\begin{Bmatrix} {P^u\mathbf{x}|u=0,1,2,...,n} \end{Bmatrix}$

u<[n/2]往正方向移动，u>[n/2]往相反方向移动，u>n循环为i=1的情况。
其循环位移的结果可以由图片简式
在这里插入图片描述
每一行都是上一行通过位移矩阵P位移一个元素的结果。
$X=C(\mathbf{x})=\begin{bmatrix} (p^0\mathbf{x})^T\\ (p^1\mathbf{x})^T\\ (p^2\mathbf{x})^T\\ \vdots \\ (p^n\mathbf{x})^T \end{bmatrix} =\begin{bmatrix} p^0\mathbf{x}&p^1\mathbf{x}&p^2\mathbf{x}&p^0\mathbf{x}&\cdots &p^n\mathbf{x} \end{bmatrix}^T$
顺便一提，一维样本通过循环位移形成二维的循环矩阵，二维样本通过循环位移成为四维的循环矩阵（可以形象地理解为二维图片的处理有两个自由度（上下方向、左右方向），处理后的许多样本图片再堆叠起来）。

引入循环矩阵是将原来 $\mathbf{x_{i}}$ 样本扩充为 $C(\mathbf{x_{i}})$ ,增加样本数，提高准确率，但这样计算量不是大大增加吗，为什么还能简化运算？
之所以引入循环矩阵，还是为了利用循环矩阵的傅里叶对角化特性，将其转入傅里叶域加快计算。（其他特性及证明这里不多赘述） $（1）X=C(\mathbf{x})=F\cdot diag(\mathbf{\hat{x}})\cdot F^H$
$d i a g$ 是保留对角化元素形成矩阵（这里是矩阵，不是向量）；相对文章简化一下，令 $F\cdot \mathbf{x}=\mathbf{\hat{x}}$ ； $FF^H=F^HF=I$

$（2）C(\mathbf{x})\mathbf{y}=F^{-1}(F^*(\mathbf{x})\cdot F(\mathbf{y}))$ 这个性质实质上是由上个式子推导得到。

4.4 Putting it all together

$X=F\cdot diag(\mathbf{\hat{x}})\cdot F^H$
$X^H=(F^H)^H\cdot diag(\mathbf{\hat{x}}^*)\cdot F^H=F\cdot diag(\mathbf{\hat{x}}^*)\cdot F^H$
$\begin{aligned} X^HX&=F\cdot diag(\mathbf{\hat{x}}^*)\cdot (F^H\cdot F)\cdot diag(\mathbf{\hat{x}})\cdot F^H\\ &=F\cdot diag(\mathbf{\hat{x}}^*)\cdot diag(\mathbf{\hat{x}})\cdot F^H\\ &=F\cdot diag(\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}})\cdot F^H\end{aligned}$
设 $I=C\left ( \delta \right ),\delta=\begin{bmatrix} 1 & 0 & 0 &... & 0 \end{bmatrix}^T,\hat{\delta}=1$
$C(\delta)=F\cdot diag(\hat{\delta})\cdot F^H=FIF^H$
$\begin{aligned} \mathbf{w}&=(XX^H+\lambda I)^{-1}X^H\mathbf{y}\\ &=(X^HX+\lambda C(\delta))^{-1}X^H\mathbf{y}\\ &=(F\cdot diag(\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}})\cdot F^H+\lambda FIF^H)^{-1}X^H\mathbf{y}\\ &=(Fdiag(\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}}+\lambda)F^H)^{-1}X^H\mathbf{y}\\ &=(Fdiag(\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}}+\lambda)^{-1}F^H)X^H\mathbf{y}\\ &=Fdiag(\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}}+\lambda)^{-1}(F^HF) diag(\mathbf{\hat{x}}^*)F^H\mathbf{y}\\ &=Fdiag(\frac{\mathbf{\hat{x}}^*}{\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}}+\lambda})F^H\mathbf{y}\\\\ &=C(F^{-1}(\frac{\mathbf{\hat{x}}^*}{\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}}+\lambda}))\mathbf{y}\\\\ &=F^{-1}(F^*(F^{-1}(\frac{\mathbf{\hat{x}}^*}{\mathbf{\hat{x}}^*\odot \mathbf{\hat{x}}+\lambda}))\odot F(\mathbf{y}))\\\\ &=\frac{\mathbf{\hat{x}}}{\mathbf{\hat{x}}\odot \mathbf{\hat{x}}^*+\lambda}\odot F(\mathbf{y})\\\\ &=\frac{\mathbf{\hat{x}}\odot\mathbf{\hat{y}}}{\mathbf{\hat{x}}\odot \mathbf{\hat{x}}^*+\lambda} \end{aligned}$

4.5 relationship to correlation filter

5. Non-linear regression

5.1 kernel trick - brief overview

第四部分讨论的是样本线性可分的情况的，当样本线性不可分时，将样本映射到高维空间使线性可分。
但不仅这个映射关系复杂无规律，而且在高维空间的点乘计算量巨大，易产生“维数灾难”，所以利用核函数技巧（kernel trick），通过一些特殊的核函数将高维空间的运算等同到低维空间来。
这部分具体解释见SVM学习整理·结合CSK\KCF

映射关系 $\mathbf{x}_{i}\rightarrow \varphi (\mathbf{x}_{i})$
分类器权重 $\mathbf{w}$ 的线性组合 $\mathbf{w}=\sum_{j}^{n}\alpha_{j}\varphi (\mathbf{x}_{j})$
岭回归表示为 $\begin{aligned} &\min\sum_{i}(f(\varphi(\mathbf{x}_{i}))-y_{i})^2+\lambda\|\mathbf{w}\|^2\\ =&\min\sum_{i}(\sum_{j}\alpha_{j}\varphi^T(\mathbf{x}_{j})\varphi(\mathbf{x}_{i})-y_{i})^2+\lambda\|\mathbf{w}\|^2\\ =&\min(\varphi^T(X)\varphi(X)\boldsymbol{\alpha}-\mathbf{y}_{i})^2+\lambda\boldsymbol{\alpha}^T\varphi^T(X)\varphi(X)\boldsymbol{\alpha}\\ \end{aligned}$
$X_{ij}=\mathbf{x}_{i}^T\mathbf{x}_{j})$
令 $\begin{aligned}&K=\varphi^T(X)\varphi(X)\\ &K_{ij}=\varphi^T(\mathbf{x}_{i})\varphi(\mathbf{x}_{j})=\kappa (\mathbf{x}_{i},\mathbf{x}_{j})\end{aligned}$

5.2 fast kernel regression

现引入循环操作矩阵 $P$ (此处有附录A.2证明 $K$ 可以随 $X$ 是循环矩阵而是循环矩阵的证明过程： $X$ 是（j-i)%n的循环， $K$ 也是（j-i)%n的循环)
$\begin{aligned} &\mathbf{x}_{i}=P^i\mathbf{x}\\ &\mathbf{x}_{j}=P^j\mathbf{x}\\ &K_{ij}=\varphi^T(P^i\mathbf{x})\varphi(P^j\mathbf{x})=\kappa (P^i\mathbf{x},P^j\mathbf{x})=\kappa (p^{-i}P^i\mathbf{x},p^{-i}P^j\mathbf{x})=\kappa (\mathbf{x},P^{j-i}\mathbf{x})\end{aligned}$ (此处利用了文中定理1）
现在，已知 $K$ 是循环矩阵，那么求他的生成向量，也就是求这个矩阵的第一行。
即，令 $i = 1$ , $K_{1j}==\kappa (\mathbf{x},P^{j-1}\mathbf{x})$ ，也表示为
$\mathbf{k}_{i}^{\mathbf{xx}}=\varphi^T(\mathbf{x})\varphi(P^{i-1}\mathbf{x})=\kappa(\mathbf{x},P^{i-1}\mathbf{x})$

回到求解滤波器上，即求解 $\alpha$
$\begin{aligned} \boldsymbol{\alpha}=&(K+\lambda I)^{-1}\mathbf{y}\\ &=(C(\mathbf{k^{xx}})+\lambda I)^{-1}\mathbf{y}\\ &=(Fdiag(\mathbf{\hat{k}^{xx}})F^H+\lambda Fdiag(\hat{\delta})F^H)^{-1}\mathbf{y}\\ &=(Fdiag(\mathbf{\hat{k}^{xx}}+\lambda)^{-1}F^H)\mathbf{y}\\ \end{aligned}$
两边同乘以 $F^H$
$\begin{aligned} F^H\boldsymbol{\alpha}&=diag(\mathbf{\hat{k}^{xx}}+\lambda)^{-1}F^H\mathbf{y}\\ \boldsymbol{\hat{\alpha}}^*&=diag(\frac{1}{\mathbf{\hat{k}^{xx}}+\lambda})\mathbf{\hat{y}}^*\\ &=\frac{\mathbf{\hat{y}}^*}{\mathbf{\hat{k}^{xx}}+\lambda} \end{aligned}$

5.3 fast detection

这部分只是把其中一个样本 $\mathbf{x}$ 换成在该帧中上一帧的位置取的图像 $\mathbf{z}$
$\mathbf{\hat{y}}=\mathbf{\hat{f}(z)}=\mathbf{\hat{k}^{xz}}\boldsymbol{\hat{\alpha}}$

6 fast kernel correlation

这部分讲了符合循环矩阵的几种核函数的具体形式

6.1 dot-product and polynomial kernels

6.2 Radial Basis Function and Guassian kernels

6.3 other kernels

eg:intersection kernel

KCF的公式推导笔记基本上就是这样，欢迎讨论。

[181118]
%这周先交差，第五部分第六部分明天再写
[181122]
%线性回归里的下标就是循环产生的虚拟样本

拖延症真的有救

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
相关滤波跟踪·KCF公式详细推导

因为KCF算法和CSK基本一样，因此关于KCF的笔记仅记录从section 4 开始的公式推导和理解。为了表述清楚，本文所有小写加粗符号表示列向量，小写不加粗表示元素或参量，大写符号表示矩阵。4 Building blocks4.1 Linear regression通过岭回归（ridge regression）或支持向量机（SVM）min⁡w∑in(f(xi)−yi)2+λ∥w∥2\m...
复制链接

扫一扫