论文发布时间:2014年
全文概括
CCSK,是CSK的扩展。CKS只用了灰度图的信息进行训练,而CCSK多了一个color,即使用了颜色信息进行训练。作者进一步将RGB颜色空间映射到了11维彩色空间,分别为black, blue, brown, grey, green, orange, pink, purple, red, white and yellow。在每个通道单独处理后,结果进行融合。但由于11维的运算复杂度太大,所以用PCA降维到2维后进行处理。(目标识别和检测受益于颜色信息的使用,这也是在目标跟踪上使用颜色信息的一个原因)
在增加了颜色属性之后,CCSK 相较于 CSK,能对更多情况进行处理,比如:光照变化,遮挡,非刚性形变,运动模糊,平面内旋转,出平面旋转和背景杂乱;CCSK 也有不足的地方,比如:尺度变化,快速运动,出视角和低分辨率,等视频的跟踪效果不佳。
简介
视觉对象跟踪问题,会受到光照变化、部分遮挡、背景杂乱和形变等因子影响。在本文中,作者认为,颜色的使用能缓解其中的一些问题,增加鲁棒性。
Coloring Visual Tracking
Color Attributes for Visual Tracking
颜色属性,或者颜色名字(CN, color name),是人类定义的颜色语言标签,其代表世界的颜色。语言学家的研究表明,英语包含十一种基础颜色:黑色、蓝色、棕色、灰色、绿色、橙色、粉红色、紫色、红色、白色和黄色。
计算机视觉中,颜色表示为RGB形式,即三种颜色标签。这里将RGB值映射到11维的颜色代表概率上,其概率和为1。这个映射过程是通过 RGB 每个维度的值,通过计算得到一个值,映射到11维颜色空间的一个下标,选择离散的11维颜色表达。
传统的CSK跟踪器将灰度值正则化到 [ − 0.5 , 0.5 ] [-0.5,0.5] [−0.5,0.5]区间,这能抵消掉窗口操作带来的失真,那会影响到核的 L 2 L^2 L2距离。在彩色空间上,作者实验了两种正则化方法: 1 ) 1) 1) 每个颜色维度减去 1 11 \frac1{11} 111,这将映射颜色空间到10维子空间,因为所有的颜色维度值加起来为 0 0 0。 2 ) 2) 2) 直接将11维颜色空间映射到10维的正交基子空间中,这在让颜色空间居中的同时,将维度从11维减少到10维。
Robustifying the Classifier for Color Features
CSK 包括学习的表现 x ^ \hat{x} x^ 和变换的分类器系数 A A A。其方法在线更新分类器系数: A p = ( 1 − γ ) A p − 1 + γ A A^p=(1-\gamma)A^{p-1}+\gamma A Ap=(1−γ)Ap−1+γA其中那个, p p p是第 p p p帧的指数, γ \gamma γ是学习率参数。这将导致次优解,因为其只考虑了当前帧 x ^ \hat{x} x^。与CSK不同的是,MOSSE跟踪器考虑了之前所有帧,却只是线性处理(平均)。
原来的损失函数为: ϵ = ∑ m , n ∣ < ϕ ( x m , n j ) , w > − y ( m , n ) ∣ 2 + λ < w , w > \epsilon=\sum_{m,n}|<\phi(x^j_{m,n}), w>-y(m,n)|^2+\lambda<w,w> ϵ=m,n∑∣<ϕ(xm,nj),w>−y(m,n)∣2+λ<w,w>原来的系数 a a a的向量 A A A的解为: A = F { a } = Y U x + λ A=\mathcal{F}\{a\}=\frac{Y}{U_x+\lambda} A=F{a}=Ux+λY在本文损失函数变为: ϵ = ∑ j = 1 p β j ( ∑ m , n ∣ < ϕ ( x m , n j ) , w j > − y j ( m , n ) ∣ 2 + λ < w j , w j > ) \epsilon=\sum^p_{j=1}\beta_j(\sum_{m,n}|<\phi(x^j_{m,n}),w^j>-y^j(m,n)|^2+\lambda<w^j,w^j>) ϵ=j=1∑pβj(m,n∑∣<ϕ(xm,nj),wj>−yj(m,n)∣2+λ<wj,wj>)其中 w j = ∑ k , l a ( k , l ) ϕ ( x k , l j ) w^j=\sum\limits_{k,l}a(k,l)\phi(x_{k,l}^j) wj=k,l∑a(k,l)ϕ(xk,lj),这个损失函数的最小化的解为: A p = ∑ j = 1 p β j Y j U x j ∑ j = 1 p β j U x j ( U x j + λ ) A^p=\frac{\sum\limits_{j=1}^p\beta_jY^jU^j_x}{\sum\limits_{j=1}^p\beta_jU^j_x(U^j_x+\lambda)} Ap=j=1∑pβjUxj(Uxj+λ)j=1∑pβjYjUxj
则更新方案变为: A N p = ( 1 − γ ) A N p − 1 + γ Y p U x p A^p_N=(1-\gamma)A_N^{p-1}+\gamma Y^pU_x^p ANp=(1−γ)ANp−1+γYpUxp A D p = ( 1 − γ ) A D p − 1 + γ U x p ( U x p + λ ) A_D^p=(1-\gamma)A_D^{p-1}+\gamma U^p_x(U_x^p+\lambda) ADp=(1−γ)ADp−1+γUxp(Uxp+λ) x ^ p = ( 1 − γ ) x ^ p − 1 + γ x p \hat{x}^p=(1-\gamma)\hat{x}^{p-1}+\gamma x^p x^p=(1−γ)x^p−1+γxp其中, U x j = F { U x j } U_x^j=\mathcal{F}\{ U_x^j\} Uxj=F{Uxj}是核输出, u x j ( m , n ) = k ( x m , n j , x j ) u_x^j(m,n)=k(x^j_{m,n},x^j) uxj(m,n)=k(xm,nj,xj), β j \beta_j βj通过学习率参数 γ \gamma γ设定; A p = A N p A D p A^p=\frac{A^p_N}{A^p_D} Ap=ADpANp
Low-dimensional Adaptive Color Attributes
已知CSK跟踪器的计算时间和特征维度成线性关系。所以对于高维度的颜色调整,这是一个 problem。
所以,作者通过 PCA 技术进行维度缩减,从11个维度中选择最重要两维。其具体实现,也通过指数平均学习了之前的颜色表示,以防止颜色的大尺度变化。