【论文阅读笔记】Adaptive Color Attributes for Real-Time Visual Tracking

最新推荐文章于 2020-02-23 17:18:40 发布

时光机ﾟ

最新推荐文章于 2020-02-23 17:18:40 发布

阅读量2k

点赞数 2

分类专栏： # 目标跟踪

本文链接：https://blog.csdn.net/qq_19784349/article/details/85621139

版权

目标跟踪专栏收录该内容

7 篇文章

订阅专栏

论文发布时间：2014年

全文概括

CCSK，是CSK的扩展。CKS只用了灰度图的信息进行训练，而CCSK多了一个color，即使用了颜色信息进行训练。作者进一步将RGB颜色空间映射到了11维彩色空间，分别为black, blue, brown, grey, green, orange, pink, purple, red, white and yellow。在每个通道单独处理后，结果进行融合。但由于11维的运算复杂度太大，所以用PCA降维到2维后进行处理。(目标识别和检测受益于颜色信息的使用，这也是在目标跟踪上使用颜色信息的一个原因)

在增加了颜色属性之后，CCSK 相较于 CSK，能对更多情况进行处理，比如：光照变化，遮挡，非刚性形变，运动模糊，平面内旋转，出平面旋转和背景杂乱；CCSK 也有不足的地方，比如：尺度变化，快速运动，出视角和低分辨率，等视频的跟踪效果不佳。

简介

视觉对象跟踪问题，会受到光照变化、部分遮挡、背景杂乱和形变等因子影响。在本文中，作者认为，颜色的使用能缓解其中的一些问题，增加鲁棒性。

Coloring Visual Tracking

Color Attributes for Visual Tracking

颜色属性，或者颜色名字（CN, color name），是人类定义的颜色语言标签，其代表世界的颜色。语言学家的研究表明，英语包含十一种基础颜色：黑色、蓝色、棕色、灰色、绿色、橙色、粉红色、紫色、红色、白色和黄色。
计算机视觉中，颜色表示为RGB形式，即三种颜色标签。这里将RGB值映射到11维的颜色代表概率上，其概率和为1。这个映射过程是通过 RGB 每个维度的值，通过计算得到一个值，映射到11维颜色空间的一个下标，选择离散的11维颜色表达。

传统的CSK跟踪器将灰度值正则化到 $[- 0.5, 0.5]$ 区间，这能抵消掉窗口操作带来的失真，那会影响到核的 $L^2$ 距离。在彩色空间上，作者实验了两种正则化方法： $1)$ 每个颜色维度减去 $\frac1{11}$ ，这将映射颜色空间到10维子空间，因为所有的颜色维度值加起来为 $0$ 。 $2)$ 直接将11维颜色空间映射到10维的正交基子空间中，这在让颜色空间居中的同时，将维度从11维减少到10维。

Robustifying the Classifier for Color Features

CSK 包括学习的表现 $\hat{x}$ 和变换的分类器系数 $A$ 。其方法在线更新分类器系数： $A^p=(1-\gamma)A^{p-1}+\gamma A$ 其中那个， $p$ 是第 $p$ 帧的指数， $\gamma$ 是学习率参数。这将导致次优解，因为其只考虑了当前帧 $\hat{x}$ 。与CSK不同的是，MOSSE跟踪器考虑了之前所有帧，却只是线性处理(平均)。

原来的损失函数为： $\epsilon=\sum_{m,n}|<\phi(x^j_{m,n}), w>-y(m,n)|^2+\lambda<w,w>$ 原来的系数 $a$ 的向量 $A$ 的解为： $A=\mathcal{F}\{a\}=\frac{Y}{U_x+\lambda}$ 在本文损失函数变为： $\epsilon=\sum^p_{j=1}\beta_j(\sum_{m,n}|<\phi(x^j_{m,n}),w^j>-y^j(m,n)|^2+\lambda<w^j,w^j>)$ 其中 $w^j=\sum\limits_{k,l}a(k,l)\phi(x_{k,l}^j)$ ，这个损失函数的最小化的解为： $A^p=\frac{\sum\limits_{j=1}^p\beta_jY^jU^j_x}{\sum\limits_{j=1}^p\beta_jU^j_x(U^j_x+\lambda)}$

则更新方案变为： $A^p_N=(1-\gamma)A_N^{p-1}+\gamma Y^pU_x^p$ $A_D^p=(1-\gamma)A_D^{p-1}+\gamma U^p_x(U_x^p+\lambda)$ $\hat{x}^p=(1-\gamma)\hat{x}^{p-1}+\gamma x^p$ 其中， $U_x^j=\mathcal{F}\{ U_x^j\}$ 是核输出， $u_x^j(m,n)=k(x^j_{m,n},x^j)$ ， $\beta_j$ 通过学习率参数 $\gamma$ 设定； $A^p=\frac{A^p_N}{A^p_D}$