【论文阅读笔记】Adaptive Color Attributes for Real-Time Visual Tracking

论文发布时间:2014年

全文概括

  CCSK,是CSK的扩展。CKS只用了灰度图的信息进行训练,而CCSK多了一个color,即使用了颜色信息进行训练。作者进一步将RGB颜色空间映射到了11维彩色空间,分别为black, blue, brown, grey, green, orange, pink, purple, red, white and yellow。在每个通道单独处理后,结果进行融合。但由于11维的运算复杂度太大,所以用PCA降维到2维后进行处理。(目标识别和检测受益于颜色信息的使用,这也是在目标跟踪上使用颜色信息的一个原因)

  在增加了颜色属性之后,CCSK 相较于 CSK,能对更多情况进行处理,比如:光照变化,遮挡,非刚性形变,运动模糊,平面内旋转,出平面旋转和背景杂乱;CCSK 也有不足的地方,比如:尺度变化,快速运动,出视角和低分辨率,等视频的跟踪效果不佳。


简介

  视觉对象跟踪问题,会受到光照变化、部分遮挡、背景杂乱和形变等因子影响。在本文中,作者认为,颜色的使用能缓解其中的一些问题,增加鲁棒性。


Coloring Visual Tracking

Color Attributes for Visual Tracking

  颜色属性,或者颜色名字(CN, color name),是人类定义的颜色语言标签,其代表世界的颜色。语言学家的研究表明,英语包含十一种基础颜色:黑色、蓝色、棕色、灰色、绿色、橙色、粉红色、紫色、红色、白色和黄色。
  计算机视觉中,颜色表示为RGB形式,即三种颜色标签。这里将RGB值映射到11维的颜色代表概率上,其概率和为1。这个映射过程是通过 RGB 每个维度的值,通过计算得到一个值,映射到11维颜色空间的一个下标,选择离散的11维颜色表达。

  传统的CSK跟踪器将灰度值正则化到 [ − 0.5 , 0.5 ] [-0.5,0.5] [0.5,0.5]区间,这能抵消掉窗口操作带来的失真,那会影响到核的 L 2 L^2 L2距离。在彩色空间上,作者实验了两种正则化方法: 1 ) 1) 1) 每个颜色维度减去 1 11 \frac1{11} 111这将映射颜色空间到10维子空间,因为所有的颜色维度值加起来为 0 0 0 2 ) 2) 2) 直接将11维颜色空间映射到10维的正交基子空间中,这在让颜色空间居中的同时,将维度从11维减少到10维。

Robustifying the Classifier for Color Features

  CSK 包括学习的表现 x ^ \hat{x} x^ 和变换的分类器系数 A A A。其方法在线更新分类器系数: A p = ( 1 − γ ) A p − 1 + γ A A^p=(1-\gamma)A^{p-1}+\gamma A Ap=(1γ)Ap1+γA其中那个, p p p是第 p p p帧的指数, γ \gamma γ是学习率参数。这将导致次优解,因为其只考虑了当前帧 x ^ \hat{x} x^。与CSK不同的是,MOSSE跟踪器考虑了之前所有帧,却只是线性处理(平均)

  原来的损失函数为: ϵ = ∑ m , n ∣ &lt; ϕ ( x m , n j ) , w &gt; − y ( m , n ) ∣ 2 + λ &lt; w , w &gt; \epsilon=\sum_{m,n}|&lt;\phi(x^j_{m,n}), w&gt;-y(m,n)|^2+\lambda&lt;w,w&gt; ϵ=m,n<ϕ(xm,nj),w>y(m,n)2+λ<w,w>原来的系数 a a a的向量 A A A的解为: A = F { a } = Y U x + λ A=\mathcal{F}\{a\}=\frac{Y}{U_x+\lambda} A=F{a}=Ux+λY在本文损失函数变为: ϵ = ∑ j = 1 p β j ( ∑ m , n ∣ &lt; ϕ ( x m , n j ) , w j &gt; − y j ( m , n ) ∣ 2 + λ &lt; w j , w j &gt; ) \epsilon=\sum^p_{j=1}\beta_j(\sum_{m,n}|&lt;\phi(x^j_{m,n}),w^j&gt;-y^j(m,n)|^2+\lambda&lt;w^j,w^j&gt;) ϵ=j=1pβj(m,n<ϕ(xm,nj),wj>yj(m,n)2+λ<wj,wj>)其中 w j = ∑ k , l a ( k , l ) ϕ ( x k , l j ) w^j=\sum\limits_{k,l}a(k,l)\phi(x_{k,l}^j) wj=k,la(k,l)ϕ(xk,lj),这个损失函数的最小化的解为: A p = ∑ j = 1 p β j Y j U x j ∑ j = 1 p β j U x j ( U x j + λ ) A^p=\frac{\sum\limits_{j=1}^p\beta_jY^jU^j_x}{\sum\limits_{j=1}^p\beta_jU^j_x(U^j_x+\lambda)} Ap=j=1pβjUxj(Uxj+λ)j=1pβjYjUxj

  则更新方案变为: A N p = ( 1 − γ ) A N p − 1 + γ Y p U x p A^p_N=(1-\gamma)A_N^{p-1}+\gamma Y^pU_x^p ANp=(1γ)ANp1+γYpUxp A D p = ( 1 − γ ) A D p − 1 + γ U x p ( U x p + λ ) A_D^p=(1-\gamma)A_D^{p-1}+\gamma U^p_x(U_x^p+\lambda) ADp=(1γ)ADp1+γUxp(Uxp+λ) x ^ p = ( 1 − γ ) x ^ p − 1 + γ x p \hat{x}^p=(1-\gamma)\hat{x}^{p-1}+\gamma x^p x^p=(1γ)x^p1+γxp其中, U x j = F { U x j } U_x^j=\mathcal{F}\{ U_x^j\} Uxj=F{Uxj}是核输出, u x j ( m , n ) = k ( x m , n j , x j ) u_x^j(m,n)=k(x^j_{m,n},x^j) uxj(m,n)=k(xm,nj,xj) β j \beta_j βj通过学习率参数 γ \gamma γ设定; A p = A N p A D p A^p=\frac{A^p_N}{A^p_D} Ap=ADpANp

Low-dimensional Adaptive Color Attributes

  已知CSK跟踪器的计算时间和特征维度成线性关系。所以对于高维度的颜色调整,这是一个 problem。
  所以,作者通过 PCA 技术进行维度缩减,从11个维度中选择最重要两维。其具体实现,也通过指数平均学习了之前的颜色表示,以防止颜色的大尺度变化。

<think>嗯,用户让我介绍一下《Adaptive Mixtures of Local Experts》这篇论文的阅读笔记。首先,我需要回忆一下这篇论文的主要内容。好像是关于机器学习中专家混合模型的,对吧?作者是Michael Jordan和Robert Jacobs,应该是在90年代初发表的。用户可能需要了解论文的核心思想、方法以及应用场景。 用户可能对专家混合模型不太熟悉,所以得先解释清楚基本概念。然后,要说明这篇论文的创新点在哪里,比如自适应分配训练样本到不同的专家网络,以及如何通过门控网络进行整合。可能还需要对比传统的混合模型,突出其优势,比如处理复杂模式的能力。 接下来,用户可能想知道论文的方法论部分。我需要分点说明模型结构、训练算法,比如期望最大化(EM)算法的应用,以及损失函数的设计。这部分要注意用清晰的中文,避免太技术化的术语,但又要准确。同时,用户提到要使用正确的LaTeX格式,所以里面的数学公式需要用$$...$$和$...$正确标注,比如似然函数和梯度下降的公式。 然后,可能需要讨论实验部分,论文中提到的应用场景,比如非线性分类、函数逼近等。要说明实验结果如何支持论文的观点,比如专家网络如何分工合作,提升模型性能。此外,优缺点分析也很重要,比如计算复杂度高,可能过拟合的问题,这样用户能全面了解。 还要考虑用户的需求层次,他们可能是研究生或者刚入门的研究者,需要结构清晰的笔记帮助快速理解论文。所以回答要分章节,比如摘要、核心思想、模型结构、训练方法、实验结果、总结等。同时,用户可能希望知道这篇论文的后续影响,比如在深度学习中的应用,所以可以提到现代模型中的类似思想,比如MoE(Mixture of Experts)。 在写作过程中,要确保LaTeX公式的正确性,比如行内公式用$...$,独立公式用$$...$$并单独成段。例如,门控网络的输出公式要用独立格式,而似然函数中的求和可以用行内格式。同时,注意中文表达流畅,避免直译英文术语,必要时解释概念。 可能还需要检查是否有遗漏的重点,比如模型的可扩展性、实际应用案例等。用户可能对如何实现这个模型感兴趣,所以可以简要提及训练步骤,比如分阶段训练专家和门控网络。此外,强调自适应分配样本的重要性,说明为什么这比传统方法更有效。 最后,总结部分要概括论文的贡献,并指出其优缺点,帮助用户评估该模型是否适合他们的问题。同时,展望后续工作,让读者了解该研究的延续性。整个过程需要保持逻辑清晰,逐步引导用户理解论文内容,确保信息准确可靠。</think>以下是对《Adaptive Mixtures of Local Experts》论文的阅读笔记整理,采用结构化表述: --- ### 1. **论文概要** - **作者**: Michael I. Jordan & Robert A. Jacobs (1991) - **核心问题**: 如何通过模块化神经网络结构解决复杂非线性问题 - **关键思想**: 将任务分解到多个"专家网络"(Local Experts),通过门控网络(Gating Network)动态分配样本并组合结果 --- ### 2. **核心方法** #### 2.1 模型结构 - **专家网络** $E_k(x)$: 多个并行子网络,每个学习输入空间的不同区域 - **门控网络** $G(x)$: 学习样本分配权重,满足 $\sum_{k=1}^K g_k(x) = 1$ - **最终输出**: $$y = \sum_{k=1}^K g_k(x) \cdot E_k(x)$$ #### 2.2 训练算法 - **目标函数**: 最大化对数似然 $$\mathcal{L} = \sum_{i=1}^N \log \sum_{k=1}^K g_k(x_i) \cdot P(y_i | E_k(x_i))$$ - **EM算法步骤**: 1. **E-step**: 计算样本$i$对专家$k$的后验责任(responsibility) $$r_{ik} = \frac{g_k(x_i)P(y_i|E_k(x_i))}{\sum_{j=1}^K g_j(x_i)P(y_i|E_j(x_i))}$$ 2. **M-step**: 更新专家网络参数和门控网络参数 - 专家网络:梯度下降最小化加权损失 $\sum_i r_{ik} \|y_i - E_k(x_i)\|^2$ - 门控网络:通过softmax回归更新权重 #### 2.3 自适应特性 - **空间划分自适应**: 门控网络自动学习输入空间的划分方式 - **专家专业化**: 通过竞争机制使不同专家聚焦不同数据区域 --- ### 3. **实验结果** - **基准任务**: - 非线性分类(如XOR问题) - 函数逼近(分段连续函数) - **关键发现**: - 比单一网络收敛更快 - 专家网络自发形成区域专业化 - 门控网络实现有效任务分解 --- ### 4. **理论贡献** - **混合模型新范式**: 突破了传统固定混合系数的方法 - **概率解释**: 为模型提供了EM算法的理论支撑 - **生物学启发**: 模仿大脑功能分区机制 --- ### 5. **优缺点分析** #### 优点: - 有效处理多模态数据 - 降低单一网络的复杂度 - 可解释性强(专家分工可见) #### 局限: - EM算法收敛速度依赖初始化 - 专家数量需预先设定 - 可能陷入局部最优 --- ### 6. **后续影响** - **现代应用**: - 集成学习的前身 - 与Attention机制有内在联系 - 影响MoE(Mixture of Experts)系列模型发展 - **扩展方向**: - 层级化专家结构 - 在线学习版本 - 结合深度学习框架 --- ### 7. **代码实现要点** ```python # 伪代码示例 for epoch in epochs: # 前向传播 expert_outputs = [expert(x) for expert in experts] gating_weights = softmax(gating_net(
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值