入门:“Robust Recovery of Subspace Structures by Low-Rank Representation” 辅助阅读+问题+总结

低秩表示的子空间结构的鲁棒恢复

辅助阅读:

摘要:在本文中,我们解决了子空间聚类问题。给定一组大约从多个子空间的并集提取的数据样本(向量),我们的目标是将样本聚类到各自的子空间中,并删除可能的异常值。为此,我们提出了一种名为低秩表示(LRR)的新目标函数,它在所有候选者中寻找最低的秩表示,该表示可以将数据样本表示为给定字典中基的线性组合。结果表明,与 LRR 相关的凸程序在以下意义上解决了子空间聚类问题:当数据干净时,我们证明 LRR 准确地恢复了真实的子空间结构 , 当数据受到异常值污染时,我们证明在一定条件下LRR能够准确地恢复原始数据的行空间并检测出异常值;对于任意稀疏错误损坏的数据,LRR也可以在理论上保证近似恢复行空间。由于子空间成员资格是由行空间确定的,这进一步意味着 LRR 可以以高效且有效的方式执行鲁棒的子空间聚类和纠错。

“Index Terms索引术语—Low-rank representation, subspace clustering, segmentation, outlier detection” 低秩表示、子空间聚类、分割、异常值检测

“1 INTRODUCTION ” 简介

在模式分析和信号处理中,一个基本原则是数据通常包含某种类型的结构,可以实现智能表示和处理。因此,人们通常需要一个参数模型来表征一组给定的数据。给定的数据集很少可以用单个子空间来很好地描述。更合理的模型是将数据视为位于多个子空间附近,即数据被视为从多个低秩子空间的混合中近似抽取的样本,如图1所示。

子空间的通用性和重要性自然导致了子空间分割(或聚类)的挑战性问题,其目标是将数据分割(聚类或分组)成簇,每个簇对应于一个子空间。

子空间分割的主要挑战是处理数据中可能存在的错误(例如噪声和损坏),即处理可能不严格遵循子空间结构的数据。带着这个观点,在本文中我们因此研究了以下鲁棒子空间聚类[15]问题。

Problem 1.1 (Robust Subspace Clustering). 问题 1.1(鲁棒子空间聚类)给定一组近似的数据样本(即数据可能包含错误),从线性子空间的并集中提取,纠正可能的错误并将所有样本同时分割到各自的子空间中。

请注意,“误差”一词通常指模型假设(即子空间)与数据之间的偏差。在现实中,它可能表现为噪音 [6]、遗漏条目 [6]、异常值 [16] 和损坏 [7]。

为了从包含错误的数据中恢复子空间结构,我们提出了一种称为低秩表示(LRR)的新方法[14]。给定一组数据样本,每个数据样本都可以表示为字典中基数的线性组合,LRR 旨在联合找到所有数据的最低秩表示。

LRR的计算过程是解决核范数[17]正则化优化问题,该问题是凸的并且可以在多项式时间内求解。通过选择特定的字典,表明LRR可以很好地解决子空间聚类问题:当数据干净时,我们证明LRR完全恢复了数据的行空间;对于受到异常值污染的数据,我们证明在一定条件下LRR能够准确地恢复原始数据的行空间并检测出异常值;对于任意错误损坏的数据,LRR也能在理论上保证近似恢复行空间。由于子空间成员资格可证明是由行空间决定的(我们将在第 3.2 节中讨论这一点),这进一步意味着 LRR 可以有效地执行鲁棒的子空间聚类和纠错。

总之,这项工作的贡献包括:

  • 我们开发了一种简单而有效的方法,称为 LRR,该方法已用于在运动分割 [4]、图像分割 [18]、显着性检测 [19] 和人脸识别等多种应用中实现最先进的性能认可[4]。

  • 我们的工作将损坏数据的恢复从单个子空间 [7] 扩展到多个子空间。与[20]相比,它需要知道子空间的基来处理来自多个子空间的损坏数据,我们的方法是自主的,即不需要额外的干净数据。

  • 提供了鲁棒恢复的理论结果。虽然我们的分析与矩阵补全 [6] 和鲁棒 PCA (RPCA) [7]、[16] 中的先前工作具有相似的特征,但由于 LRR 中存在字典矩阵,因此更具挑战性。

“2 RELATED WORK” 相关工作

在本节中,我们讨论一些现有的子空间分割方法。总的来说,现有的工作可以大致分为四大类:混合高斯方法、分解方法、代数方法和谱型方法。

在统计学习中,混合数据通常被建模为从概率分布的混合中抽取的一组独立样本。由于单个子空间可以通过(简并)高斯分布很好地建模,因此可以直接假设每个概率分布都是高斯分布,即采用混合高斯模型。然后将数据分割问题转化为模型估计问题。可以通过使用期望最大化 (EM) 算法来查找最大似然估计来执行估计,如 [21] 中所做的那样,或者通过迭代地查找最小-最大估计来执行,如 K-子空间 [8] 和随机样本共识(RANSAC)[10]所采用的那样。这些方法对错误很敏感。因此,为了提高其鲁棒性,人们做出了一些努力,例如,K-子空间的中值 K-flats [22]、RANSAC 的工作 [23] 以及 [5] 使用编码长度来表征高斯的混合。这些改进可能会带来一些鲁棒性。然而,由于优化困难,该问题仍然没有得到很好的解决,这是这些方法的瓶颈。

基于因式分解的方法[12]试图将给定的数据矩阵近似为两个矩阵的乘积,以便其中一个因素的支持模式揭示样本的分割。为了实现对噪声的鲁棒性,这些方法通过添加额外的正则化项来修改公式。然而,此类修改通常会导致非凸优化问题,需要启发式算法(通常基于交替最小化或 EM 式算法)来解决。陷入局部最小值可能会损害其性能,尤其是当数据严重损坏时。将证明LRR可以被视为[12]中方法的鲁棒推广(本文称为PCA)。 LRR 的公式是凸的并且可以在多项式时间内求解。

广义主成分分析 (GPCA) [24] 提出了一种代数方法来对从多个子空间的并集提取的数据进行建模。该方法通过使用多项式在该点的梯度来描述包含数据点的子空间。然后子空间分割相当于用多项式拟合数据。 GPCA可以保证在一定条件下分割的成功,并且它不对子空间施加任何限制。然而,由于难以从真实数据估计多项式,该方法对噪声敏感,这也导致GPCA计算成本较高。最近,鲁棒代数分割(RAS)[25]被提出来解决 GPCA 的鲁棒性问题。然而,拟合多项式的计算难度却大得难以想象。因此,只有当数据维数较低且子空间数量较少时,RAS才有意义。

作为数据聚类问题,“subspace segmentation” 子空间分割可以通过首先从给定数据中学习亲和力矩阵,然后通过归一化切割(NCut)[26]等谱聚类(SC)算法获得最终分割结果来完成。许多现有的方法,例如稀疏子空间聚类(SSC)[13],谱曲率聚类(SCC)[27],[28],谱局部最佳拟合平面(SLBF)[29],[30],提出的LRR方法,以及[2]、[31],都具有这种谱性质,即所谓的谱型方法“spectral-type methods.” 。各种谱类型方法之间的主要区别在于学习亲和力矩阵的方法。在数据干净且子空间独立的假设下,Elhamifar 和 Vidal [13] 表明,稀疏表示(SR)[32] 产生的解决方案可以实现所谓的“l1 子空间检测特性”(“l1-SDP”) ):类内亲和力稀疏,类间亲和力全为零。在存在异常值的情况下,[15]表明SR方法仍然可以遵循“l1-SDP”。然而,l1-SDP 可能不足以确保子空间分割的成功[33]。最近,Lerman和Zhang[34]证明,在某些条件下,可以通过lp(p ≤ 1)最小化来精确地恢复多个子空间结构。不幸的是,由于该公式不是凸的,因此仍然不知道如何有效地获得全局最优解。相比之下,LRR 的公式是凸的,相应的优化问题可以在多项式时间内求解。更重要的是,即使数据受到异常值的污染,所提出的 LRR 方法也被证明可以准确地恢复正确的行空间,这可以证明确定子空间分割结果(我们将在 3.2 节中讨论这一点)。在存在任意错误(例如损坏、异常值和噪声)的情况下,LRR 也保证产生接近恢复的结果。

“3 PRELIMINARIES AND PROBLEM STATEMENT” 预备知识和问题陈述

“3.1 Summary of Main Notations”  主要符号总结

在本文中,矩阵用大写符号表示。特别地,I用于表示单位矩阵,矩阵的条目用[.] 加下标来表示。例如,M是一个矩阵,[M]ij  是它的第(i,j)个条目,[M]i,: 是其第 i 行,[M]:,j 是其第 j 列。为了便于表示,矩阵集合沿行(特别列)的水平(特别垂直)串联表示为 [M1,M2, ...,Mk](特别 [M1; M2;...;Mk] )。由矩阵 M1,M2, ...,Mk的集合形成的块对角矩阵表示为

唯一使用的向量范数是l2 范数,用 ||.||2 表示。将使用各种矩阵范数。矩阵 l0, l2,0, l1, l2,1 范数分别由||M||0 = #{(i,j):[M]ij ≠ 0} , ||M||2,0 = #{i:||[M]:,i||2 ≠ 0} ,||M||1 = ∑|[M]ij|, ||M||2,1 = ∑i ||[M]:,i||2 定义。矩阵 l∞ 范数定义为 ||M||∞ = maxij|[M]ij|。矩阵 M 的谱范数用 ||M||表示,即 ||M|| 是 M 的最大奇异值。Frobenius 范数和核范数(矩阵的奇异值之和)分别用 ||M||F 和 ||M||* 表示。两个矩阵之间的欧几里得内积为 <M,N> = tr(MTN),其中 MT 是矩阵的转置,tr(.) 是矩阵的迹。

矩阵 M 的支撑是其非零项的索引,即 {(i,j):[M]ij ≠ 0}。同样,它的列支持是其非零列的索引。符号 I(上标、下标等)用于表示矩阵的列支持,即 I = {(i):||[M]:,i ||2 ≠ 0}。相应的补集(即零列)是 Ic。有两个与 I 和 Ic 相关的投影算子: PI 和 PIc 。将它们应用到矩阵 M 时,矩阵 PI(M)(特别  PIc(M))可以通过将所有i不属于I (分别i不属于Ic )的 [M]:,i  设置为零。

我们还采用以下约定:使用span(M)表示矩阵M的列所跨越的线性空间,使用y ∈ span(M)表示向量y属于空间span(M),并使用Y ∈ span(M)表示矩阵M的所有列向量Y 属于 span(M)

最后,在本文中,我们使用了几个术语,包括“块对角矩阵”、“子空间的并集和总和”、“独立(和不相交)子空间”、“全full SVD 和瘦skinny SVD”、“伪逆”、“列空间和行空间”和“亲和度”。这些术语在附录中定义,可以在计算机协会数字图书馆 http://doi 中找到。 ieeecomputersociety.org/10.1109/TPAMI.2012.88。

“3.2 Relations between Segmentation and Row Space”  分段与行空间的关系

令具有瘦 SVD U0Σ0V0T 的 X0 是严格从多个子空间的并集抽取的数据样本的集合(即 X0 是clean的);样本的子空间隶属度由 X0 的行空间确定。事实上,如[12]所示,当子空间独立时,V0V0T 形成块对角矩阵:当且仅当第 i 个和第 j 个样本来自同一子空间时,V0V0T的第 (i,j) 个条目才可以为非零。因此,这个矩阵,称为形状交互矩阵(SIM)[12],已广泛用于子空间分割。以前的方法只是计算数据矩阵 X = UXΣXVXT 的 SVD,然后使用 |VXVXT|1 进行子空间分割。然而,在存在异常值和损坏的情况下,VX 可能远离 V0,因此使用此类方法进行的分割是不准确的。相反,我们表明即使数据矩阵 X 受到异常值污染,LRR 也可以恢复 V0V0T。

如果子空间不独立,则V0V0T 可能不是严格块对角的。这确实是预料之中的,因为当子空间具有非零(非空)交集时,某些样本可能同时属于多个子空间。当子空间成对不相交(但不独立)时,我们广泛的数值实验表明 V0V0T 可能仍然接近块对角线,如图 3 所示。因此,对子空间分割,恢复 V0V0T 仍然是人们感兴趣的。

“3.3 Problem Statement”  问题陈述

问题1.1只是粗略地描述了我们要研究的内容。更准确地说,本文解决了以下问题。

“Problem 3.1 (Subspace Recovery). ”(子空间恢复)。令 X0 ∈ IR d x n 具有瘦 SVD U0Σ0V0T 存储一组严格从未知维度(k 也未知)的 k 个子空间 {Si}i=1k 的并集抽取的 n个 d 维样本(向量)。给定一组由 X = X0 + E0 生成的观测向量 X;目标是恢复 X0 的行空间或将真实的 SIM V0V0T 恢复为相等。

行空间的恢复可以保证较高的分割精度,如3.2节中分析的。此外,行空间的恢复自然意味着错误纠正的成功。因此,将子空间聚类的目标设置为恢复由V0V0T 标识的行空间就足够了。为了便于探索,我们在实用性和难度不断增加的三个假设下考虑该问题。

假设 1. 数据是干净的,即 E0 = 0。

假设 2.一小部分数据样本被严重损坏,其他样本是干净的,即E0具有稀疏的列支撑,如图2c所示。

假设 3. 一小部分数据样本被严重损坏,其他样本受到小高斯噪声的污染,即 E0 由图 2a和2c 所示模型的组合来表征。

与[14]不同,本文没有强调子空间的独立假设,因为本文的分析重点是恢复V0V0T 而不是追求块对角矩阵。

“4 LOW-RANK REPRESENTATION FOR MATRIX RECOVERY” 矩阵恢复的低阶表示

在本节中,我们抽象地介绍了从损坏的观测值中恢复矩阵的 LRR 方法。将介绍基本定理和优化算法。处理子空间聚类问题的具体方法和理论推迟到第5节。

“4.1 Low-Rank Representation”  低阶表示

为了从被误差 E0 (X = X0 + E0) 损坏的给定观测矩阵 X 中恢复低秩矩阵 X0,可以直接考虑以下正则化秩最小化问题:

其中 λ>0 是一个参数, ||.||l表示某种正则化策略,例如用于对噪声进行建模的平方 Frobenius 范数(即 ||.||F2 ),如图 2a [6] 所示,即 Cande等人[7] 采用的 l0 范数用于表征如图2b所示的随机损坏,以及Liu等人采用的l2,0范数” [14] 和徐等人[16] 用于处理特定样本的损坏和异常值。假设D*是关于变量D的最小化器,那么它对原始数据X0给出低秩恢复。

最近建立的鲁棒PCA方法[7]采用了上述公式,该方法已在多种应用中实现了最先进的性能(例如[35])。然而,这个公式隐含地假设底层数据结构是单个低秩子空间。当数据是从多个子空间的并集抽取时,记为S1; S2; ...; Sk,它实际上将数据视为从 S = Σi=1k Si 定义的单个子空间采样。由于总和 Σi=1k Si 可能比并集 ∪i=1k Si  大得多,因此没有充分考虑各个子空间的具体情况,因此恢复可能不准确。

为了更好地处理混合数据,这里我们建议一个更通用的秩最小化问题,定义如下:

其中 A 是线性跨越数据空间的“字典”。我们将最小化器 Z*(相对于变量 Z)称为数据 X 相对于字典 A 的“最低秩表示”。在获得最优解 (Z*,E*) 后,我们可以使用 AZ*(或X - E*)来恢复初始数据。由于rank(AZ*)≤ rank(Z*),AZ*也是对原始数据X0的低秩恢复。通过设置 A = I,公式 (3) 回到 (2)。所以LRR可以被视为RPCA的推广,本质上使用标准库作为字典。通过选择合适的字典A,正如我们将看到的,最低秩表示可以恢复底层行空间,从而揭示数据的真实分割。因此,LRR 可以很好地处理从多个子空间的并集提取的数据。

“4.2 Analysis on the LRR Problem”  LRR问题分析

由于秩函数的离散性质,优化问题(3)很难解决。为了便于探索,我们从数据干净的“理想”情况开始。也就是说,我们考虑以下秩最小化问题:

很容易看出,(4) 的解可能不是唯一的。作为秩最小化问题的常见做法,我们用核范数代替秩函数,得到以下凸优化问题:

我们将证明(5)的解也是(4)的解,并且这个特殊的解对于子空间分割很有用。

下面,我们将展示问题(5)的最小化器的一些一般性质。这些一般性结论构成了 LRR 的基础(证明可以在附录中找到,可以在在线补充材料中找到)。

“4.2.1 Uniqueness of the Minimizer”  最小化器的独特性

核范数是凸的,但不是强凸的。因此(5)有可能存在多个最优解。幸运的是,可以证明(5)的最小化器总是由封闭形式唯一定义。这总结为以下定理。

“Theorem 4.1. ” 定理4.1。假设 A ≠ 0 和 X = AZ 有可行解,即 X ∈ span(A)。然后,

是 (5) 的唯一最小化器,其中 A+ 是 A 的伪逆。

根据上述定理,我们有以下推论,表明 (5) 是 (4) 的良好替代。

“Corollary 4.1.” 推论4.1。假设 A ≠ 0 和 X = AZ 有可行解。令 Z* 为 (5) 的最小化,则rank(Z*) = rank(X) 并且 Z* 也是 (4) 的最小秩解。

“4.2.2 Block-Diagonal Property of the Minimizer”  极小化器的块对角线性质

通过选择合适的字典,最低秩表示可以揭示真实的分割结果。也就是说,当 A 和 X 的列是从独立子空间精确采样时,(5)的最小化器可以揭示样本之间的子空间隶属关系。设{S1, S2, ..., Sk} 是 k 个子空间的集合,每个子空间的秩(维数)为 ri > 0。此外,令 A = [A1, A2, ...,Ak] 和 X = [X1,X2, ...,Xk]。那么我们有以下定理。

“Theorem 4.2. ” 定理4.2。不失一般性,假设Ai是第i个子空间Si的mi个样本的集合,Xi是Si的ni个样本的集合,并且每个Ai的采样足够使得rank(Ai) = ri(即Ai可以被视为作为跨越子空间的基础)。如果子空间是独立的,则 (5) 的最小化器是块对角的:

其中 Zi* 是一个 mi x ni 系数矩阵,rank(Zi*) = rank(Xi),对任意i

请注意,rank(Zi*) = rank(Xi) 的声明保证了 Zi* 的类内高度同质性,因为低秩属性通常要求 Zi* 是稠密的。这与 SR 不同,如果 A = X,SR 很容易产生“平凡”的解决方案,因为在这种情况下最稀疏的表示是单位矩阵。还值得注意的是,上述块对角线属性不需要数据样本根据其子空间成员资格分组在一起。假设样本的索引已被重新排列以满足真实的子空间隶属关系,这并不失一般性,因为 LRR 产生的解是全局最优的并且不依赖于数据样本的排列。

“4.3 Recovering Low-Rank Matrices by Convex Optimization”  通过凸优化恢复低秩矩阵

推论 4.1 表明,使用核范数作为替代项来代替 (3) 中的秩函数是合适的。此外,矩阵“l1”和“l2,1”范数分别是“l0”和“l2,0”范数的良好松弛。因此,我们可以通过解决以下凸优化问题来获得对 X0 的低秩恢复:

这里,采用“l2,1”范数来表征误差项 E,因为我们想要对特定于样本的损坏(和异常值)进行建模,如图 2c 所示。对于图2a所示的小高斯噪声,应选择||E||F2;对于如图 2b 所示的随机损坏,||E||1 是合适的选择。在获得最小化器 (Z*, E*) 后,我们可以使用 AZ* (或 X - E* )来获得对原始数据 X0 的低秩恢复。

优化问题(7)是凸的,可以通过多种方法求解。为了提高效率,本文采用增强拉格朗日乘子(ALM)[36]、[37]方法。我们首先将(7)转换为以下等价问题:

这个问题可以通过 ALM 方法来解决,该方法最小化以下增广拉格朗日函数:

上述问题是无约束的。因此,通过固定其他变量,然后更新拉格朗日乘子 Y1 和 Y2,可以分别相对于 J、Z 和 E 使其最小化,其中 μ>0 是惩罚参数。算法 1.2 中概述了不精确 ALM 方法,也称为交替方向方法。请注意,虽然算法的步骤 1 和 3 是凸问题,但它们都有封闭解。步骤 1 通过奇异值阈值 (SVT) 算子 [38] 求解,而步骤 3 通过以下引理求解。

“Lemma 4.1 ([39]). ” 引理 4.1 ([39]) 令 Q 为给定矩阵。如果最优解为

是 W* ,那么 W* 的第 i 列是

“4.3.1 Convergence Properties”  收敛性

当目标函数光滑时,精确的ALM算法的收敛性已在[37]中得到普遍证明。对于不精确 ALM(精确 ALM 的一种变体),当块数最多为 2 时,其收敛性也得到了很好的研究 [36]、[40]。到目前为止,普遍保证三个或更多块的不精确ALM的收敛仍然很困难[40]。由于算法1中有3个块(包括Z、J和E),并且(7)的目标函数不光滑,理论上不容易证明收敛性。

“Algorithm 1. 算法 1.Solving Problem (7) by Inexact ALM” 通过不精确 ALM 解决问题 (7)

“Input: ” 输入:数据矩阵 X,参数 λ。

“Initialize: ” 初始化:Z = J = 0;E = 0;Y1 = 0;Y2 = 0;μ = 10-6,最大 μmax = 106; ρ= 1.1 和 ε = 10-8。

幸运的是,实际上存在一些保证算法1收敛的保证。根据[41]中的理论结果,算法1收敛的两个条件是充分的(但可能不是必要的):第一个条件是字典矩阵A具有完整的列级;第二个是每个迭代步骤中产生的最优性差距是单调递减的,即误差

是单调递减的,其中 Zk(特别 Jk)表示第 k 次迭代产生的解,arg minZ,JL 表示通过同时相对于 Z 和 J 最小化拉格朗日函数 L 获得的“理想”解。第一个条件很容易遵守,因为(7)可以转换为一个等价的问题,其中总是满足完整的列秩条件(我们将在下一小节中展示这一点)。对于单调递减条件,虽然严格证明并不容易,但拉格朗日函数的凸性可以在一定程度上保证其有效性[41]。因此,可以预期算法 1 具有良好的收敛性。此外,众所周知,不精确的 ALM 在现实中通常表现良好,如 [40] 所示。

传统的交替方向法理论要求该值必须有上界(算法1的第5步),以保证算法的收敛性。所以我们也采用这个约定。然而,请注意,对于某些特定问题,例如[36]中分析的 RPCA 问题,上界可能不是必需的。

“4.3.2 Computational Complexity” 计算复杂度

为了便于分析,下面我们假设A和X的大小均为d x n 。算法1的主要计算是步骤1,它需要计算n x n 矩阵的SVD。所以如果n很大,即数据样本数量很大,就会很耗时。幸运的是,LRR 的计算成本可以通过以下定理轻松降低,该定理源自定理 4.1。

“Theorem 4.3. ”定理4.3。对于 LRR 问题 (7) 的任何最优解 (Z*, E*),我们有

上述定理得出结论,(7) 的最优解 Z*(相对于变量 Z)始终位于 A 的行所跨越的子空间内。这意味着 Z* 可以分解为 Z* = P* ~ Z*,其中P* 可以通过正交化 AT 的列来提前计算。因此,(7)可以等效地转化为更简单的问题,将Z替换为P* ~ Z:

其中 B = AP*。得到上述问题的解 (~ Z*, E*)后,通过(P*~ Z*, E*)恢复出(7)的最优解。由于 ~ Z 的行数最多为 rA(A 的秩),因此可以使用算法 1 以 O(dnrA + nr2 A + r3 A) 的复杂度解决上述问题。因此,LRR 对于大尺寸具有很好的可扩展性(n大)数据集,前提是已经获得了低秩字典A。当使用 A = X 时,计算复杂度最多为 O(d2n + d3)(假设 d ≤ n)。如果数据维度 d 不高,这也很快。

考虑到正交化的成本和收敛所需的迭代次数,算法1的复杂度为

其中 ns 是迭代次数。迭代次数 ns 取决于 ρ的选择:ns 较小当ρ 较大,反之亦然。虽然更大确实会产生更高的效率,但使用大有失去最优性的风险[36]。在我们的实验中,我们总是设置ρ = 1.1。在此设置下,迭代次数通常位于50-300范围内。

“5 SUBSPACE RECOVERY BY LRR”  LRR 子空间恢复

在本节中,我们利用 LRR 来解决问题 3.1,即从一组损坏的观测值中恢复原始行空间。将呈现理论和实验结果。

“5.1 Exactness to Clean Data” 数据清洗的准确性

当数据没有错误时,即 X = X0 和 E0 = 0,通过求解以下核范数最小化,很容易证明 X0 的行空间(由 V0V0T 标识)被精确恢复问题:

即选择数据矩阵X本身作为(5)中的字典。由定理4.1,我们有以下定理,该定理也被Wei和Lin[42]证明。

“Theorem 5.1.” 定理5.1。假设 X 的瘦 SVD 为 UΣV T ,则 (8) 的最小化器唯一定义为

这自然意味着当 X 干净时(即 E0 = 0),Z 完全恢复 V0V0T 。

上述定理揭示了LRR与[12]中的方法之间的联系,该方法是PCA的对应方法(为了简单起见,简称为“PCA”)。然而,众所周知,PCA 对于异常值的存在很脆弱。相比之下,理论上可以证明,LRR 可以准确地从异常值污染的数据中恢复 X0 的行空间,如下一节所示。

“5.2 Robustness to Outliers and Sample-Specific Corruptions” 对异常值和样本特定损坏的鲁棒性

“Assumption 2” 假设 2 是假设一小部分数据样本远离底层子空间。这意味着误差项 E0 具有稀疏列支持。因此,l2,1 范数适合表征 E0。通过在 (7) 中选择 A = X,我们有以下凸优化问题:

上述公式“似乎”有问题,因为数据矩阵(本身可能包含错误)被用作纠错字典。尽管如此,如以下两小节所示,对于几个特定问题来说,A = X 确实是一个不错的选择。3

“5.2.1 Exactness to Outliers”  异常值的准确性

当观察到的数据样本远离底层子空间时,典型的情况是该样本来自子空间以外的不同模型,即所谓的异常值4。在这种情况下,数据矩阵 X 包含两部分,一部分部分由严格从底层子空间中抽取的真实样本(记为 X0)组成,另一部分由非子空间成员的离群值(记为 E0)组成。为了精确描述这个设置,我们需要对X0施加一个额外的约束,即

其中 I0 是异常值的索引(即 E0 的列支持)。此外,我们使用 n 表示 X 中的数据样本总数,γ ≡ |I0|/n 表示异常值的分数,r0 表示 X0 的秩。有了这些符号,我们有以下定理,该定理表明 LRR 可以精确地恢复 X0 的行空间并识别异常值的索引。

“strictly succeeds” 严格成立

“any minimizer” 任何最小化器

“where U is the column space of Z and I is the column supports of E” 其中 U 是 Z 的列空间,I 是 E 的列支撑

上述定理中有几个重要的注意事项。首先,虽然目标函数(9)不是强凸的并且可能存在多个最小化器,但事实证明任何最小化器对于子空间恢复都是有效的。其次,系数矩阵Z*本身并不恢复V0V0T(注意,除E* = 0外,Z*通常是不对称的),是Z*的列空间恢复了X0的行空间。第三,LRR的性能通过的γ*值测量(越大越好),γ*值取决于一些数据属性,例如不相干性和外在秩r0(r0越低则γ*越大)。欲了解更多详细信息,请参阅[43]。

图4给出了一些实验结果,验证了定理5.2的结论。请注意,参数设置 λ = 3/(7||X||√γ*n) 是基于条件γ ≤γ*(即异常值分数小于某个阈值)的,这只是确保 LRR 成功的充分(但不是必要)条件。因此,在实践中(即使是综合示例),当γ > γ*,其他值也可能实现更好的性能。

“5.2.2 Robustness to Sample-Specific Corruptions” 对样本特定损坏的鲁棒性

对于观察到的样本远离子空间的现象,另一种情况是该样本是真实的子空间成员,但严重损坏。通常,此类损坏仅发生在一小部分数据样本上,即所谓的“样本特定”损坏。样本特定损坏的建模与异常值相同,因为在这两种情况下 E0 都具有稀疏列支持。所以式(9)仍然适用。然而,设置(10)不再有效,因此LRR在这种情况下可能无法准确地恢复行空间V0V0T。根据经验,I = I0 的结论仍然成立[14],这意味着 E 的列支持可以识别损坏样本的索引。

虽然异常值和特定于样本的损坏 5 都以相同的方式处理,但问题是如何处理真实样本严重损坏以具有与异常值相似的属性的情况。如果样本严重损坏以致与底层子空间无关,则它将被视为 LRR 中的异常值,如图 5 所示。这是一个合理的操作。例如,如果面部图像已被损坏看起来像其他东西,则可以将面部图像视为非面部异常值。

“5.3 Robustness in the Presence of Noise, Outliers, and Sample-Specific Corruptions” 存在噪声、异常值和样本特定损坏时的鲁棒性

当数据存在噪声时,E0 的列支持度不是严格稀疏的。尽管如此,公式(9)仍然适用,因为l2,1范数(从l2,0范数放宽)可以很好地处理近似具有稀疏列支持的信号。由于所有观测值都可能被污染,理论上不可能精确恢复行空间V0V0T 。因此,在这种情况下,我们的目标是接近恢复。由矩阵范数的三角不等式,无需任何假设,即可简单证明以下定理。

图 6 展示了在存在噪声、异常值和样本特定损坏的情况下 LRR 的性能。可以看出,LRR 产生的结果是非常有希望的。

人们可能已经注意到,上述定理中给出的界限有些宽松。为了在理论上获得更准确的界限,需要将(9)的等式约束放宽为:

$$其中\xi是表征数据中可能存在的密集噪声(图2a)数量的参数。\\
上述问题可以通过 ALM 来解决,过程与算法 1 类似。但是,上述公式需要调用另一个参数 ,因此本文不再进一步探讨。$$

“5.4 Algorithms for Subspace Segmentation, Model Estimation, and Outlier Detection”  子空间分割、模型估计和异常值检测算法

“5.4.1 Segmentation with Given Subspace Number”  给定子空间数的分割

通过求解(9)得到(Z*,E*)后,标识Z*的列空间的矩阵U*(U*)T 对于子空间分割很有用。令 Z 的瘦 SVD 为 U*Σ*(V*) T ,我们定义亲和矩阵 W 如下:

其中 ~ U 由  U*(Σ*) 1/2  和标准化行组成。在这里,为了在损坏的数据上获得更好的性能,我们通过乘以 (Σ*) 1/2 为 U * 的每一列分配一个权重。请注意,当数据干净时,Σ* = I,因此该技术不会产生任何效果。使用 (.)2 的技术细节是确保亲和力矩阵 W 的值为正(注意矩阵 ~ U(~ U)T 可以为负值)。最后,我们可以使用诸如归一化切割[26]之类的谱聚类算法将数据样本分割成给定数量的k个簇。算法2总结了LRR执行分割的整个过程。

“5.4.2 Estimating the Subspace Number k”  估计子空间数k

尽管估计子空间的数量(即簇的数量)通常具有挑战性,但由于特定算法产生的亲和矩阵的块对角结构,可以解决该模型估计问题[13],[44] ,[45]。当得到严格块对角亲和矩阵W时,首先计算W的归一化拉普拉斯(记为L)矩阵,然后计算L的零奇异值的个数,即可求得子空间数k。虽然获得的亲和力矩阵刚好接近块对角线(现实中就是这种情况),但可以将子空间数预测为小于阈值的奇异值的数量。在这里,我们建议采用软阈值方法,通过以下方式输出估计的子空间数 ^ k

其中,n 为数据样本总数,{σi}i=1n  为拉普拉斯矩阵 L 的奇异值,(.) 为输出最接近实数整数的函数,fΓ(.) 为软阈值算子定义为

其中 0 < Γ <1 是一个参数。算法3总结了基于LRR估计子空间数的整个过程。

“affinity matrix W” 亲和矩阵 W

“5.4.3 Outlier Detection” 异常值检测

如定理5.2所示,极小值E(相对于变量E)可用于检测数据中可能存在的异常值。当所有或部分数据样本都是干净的(即假设 1 和 2)时,这可以通过查找 E 的非零列来简单地完成。对于学习到的E仅近似具有稀疏列支持的情况,可以使用阈值策略,即X的第i个数据向量被判断为异常值当且仅当

其中 δ>0 是一个参数。

由于离群值的亲和度为零或接近于零(见图4和图6),因此也可以通过丢弃亲和度小于某个阈值的数据样本来去除可能的离群值。这种策略通常用于谱型方法[13]、[34]。一般来说,该策略的基本原理与(14)基本相同。与通过亲和度来表征异常值的策略相比,使用 E 来指示异常值有一个优点,即公式(9)可以轻松扩展以包含更多先验,例如[18]和[19]中所做的多个视觉特征。

“6 EXPERIMENTS” 实验

LRR 已用于在运动分割 [4]、图像分割 [18]、人脸识别 [4] 和显着性检测 [19] 等多种应用中实现最先进的性能。在本文的实验中,我们将重点分析子空间分割和异常值检测背景下LRR的本质方面。

“6.1 Experimental Data”  实验数据

“6.1.1 Hopkins155”

为了验证 LRR 的分割性能,我们采用 Hopkins155 [46] 运动数据库进行实验,该数据库为测试各种子空间分割算法提供了广泛的基准。在 Hopkins155 中,有 156 个视频序列以及所有帧中提取和跟踪的特征。每个序列都是一个单独的数据集(即数据矩阵),因此总共有 156 个具有不同属性的数据集,包括子空间的数量、数据维度和数据样本的数量。尽管数据中的异常值已被手动删除并且总体错误水平较低,但某些序列(大约10个序列)严重损坏并且具有显着的错误水平。

表 1 总结了有关 Hopkins155 的一些信息。对于表示为数据矩阵 X 的序列,其误差水平通过其秩 r 近似来估计: ||X-UrΣrVr T ||F /||X||F ,其中 Σr 包含 X 和 Ur 的最大 r 奇异值(特别Vr) 是通过取顶部 r 个左(分别是右)奇异向量而形成的。这里,我们设置r = 4k(k是序列的子空间编号),因为运动数据中每个子空间的秩最多为4。

“6.1.2 Yale-Caltech”  耶鲁-加州理工学院

为了测试 LRR 在存在异常值和损坏的情况下的有效性,我们通过结合扩展耶鲁数据库 B [47] 和 Caltech101 [48] 创建一个数据集。对于扩展耶鲁数据库 B,我们删除了在极端光照条件下拍摄的图像。也就是说,我们只使用视角方向小于 45 度且光源方向小于 60 度的图像,从而从 38 个低秩子空间(每个人脸类对应一个子空间)的并集近似抽取 1,204 个真实样本。对于 Caltech101,我们仅选择包含不超过 40 个图像的类,从而产生 609 个非面部异常值。图 7 显示了该数据集的一些示例。

“6.2 Baselines and Evaluation Metrics”  基线和评估指标

由于PCA和LRR之间的密切联系,我们选择PCA和RPCA方法作为基线。此外,还考虑了一些先前的子空间分割方法。

“6.2.1 PCA (i.e., SIM)”  PCA(即SIM)

PCA方法广泛用于降维。实际上,它也可以应用于子空间分割和离群点检测,如下所示:首先,我们使用SVD获得数据矩阵X的rank-r(r是参数)近​​似,记为X ≈ UrΣrVr T;其次,我们利用 VrVr T ,它是对真实 SIM V0V0 T的估计,以与算法 2 类似的方式进行子空间分割(唯一的区别是 SIM 的估计);最后,我们计算 Er = X - UrΣrVr T 并根据(14)使用 Er 检测异常值。

“6.2.2 Robust PCA” 鲁棒主成分分析

作为对 PCA 的改进,鲁棒的 PCA 方法还可以进行子空间分割和异常值检测。在本文中,我们考虑[7]、[16]和[42]中引入的两种基于最小化的RPCA方法

在[7]中,l1范数用于表征随机损坏,因此称为“RPCA1”。在[16]和[42]中,采用l2,1范数来检测异常值,因此称为“RPCA2,1”。子空间分割和异常值检测的详细过程与上面的 PCA 情况几乎相同。唯一的区别是,Vr 是由 D*(而不是 X)的瘦 SVD 形成的,它是通过解决上述优化问题获得的。这里注意,r的值是由参数λ决定的,因此只需选择λ即可。

“6.2.3 Sparse Representation”  稀疏表示

LRR 与 SR 具有相似的外观,已应用于子空间分割[13]。为了公平比较,在本文中,我们实现了一种基于l2,1-范数的 SR 方法,该方法通过最小化


来计算亲和力矩阵。

这里,SR 需要强制执行 |Z ii| = 0 以避免平凡解 Z = I。在获得最小化 (Z* ,E*)  后,我们使用 W = |Z*| + |(Z*)T| 作为亲和矩阵来处理子空间分割。使用E进行异常值检测的过程与LRR相同。

“6.2.4 Some other Methods”  其他一些方法

我们还考虑比较一些以前的子空间分割方法,包括随机样本一致性[10]、广义PCA(GPCA)[24]、局部子空间分析(LSA)[2]、聚合有损压缩(ALC)[3]、稀疏子空间聚类[13]、谱聚类[31]、谱曲率聚类[27]、多阶段学习(MSL)[49]、局部线性流形聚类(LLMC)[50]、局部最佳拟合平面(LBF)[29] ,和光谱LBF(SLBF)[29]。

“6.2.5 Evaluation Metrics”  评估指标

分割精度(误差)Segmentation accuracy (error) 用于衡量分割的性能。接收者操作特征 (ROC) 曲线下的面积(称为 AUC)用于评估异常值检测的质量。有关这两个评估指标的更多详细信息,请参阅在线补充材料中的附录。

“6.3 Results on Hopkins155 “

6.3.1 Choosing the Parameter λ”  选择参数λ

参数 λ>0 用于平衡(9)中两部分的影响。一般来说,该参数的选择取决于数据错误级别的先验知识。当误差较小时,应使用较大的λ;当误差较大时,我们应该设置λ相对较小。

图8a显示了Hopkins155中所有156个序列的评估结果:当λ范围从1到6时,分割误差仅在1.69%到2.81%之间变化;当λ范围从 3 到 5 时,分割误差几乎保持不变,在 1.69% 到 1.87% 之间略有变化。这种现象主要是由于两个原因造成的:首先,在大多数几乎干净且易于分割的序列(约80%)上,LRR通过任意选择λ都可以很好地工作,如图8b所示。其次,LRR 具有“不变性”。即,定理4.3意味着(9)的极小值总是满足Z* ∈ span(XT)。这意味着LRR的解在变化时可以部分稳定。

上述分析并没有否认模型选择的重要性。如图8c所示,该参数可以很大程度上影响某些序列的分割性能。实际上,如果我们为每个序列寻找最佳值,那么总体错误率仅为 0.07%。尽管这个数字是以“不切实际”的方式实现的,但它验证了选择参数的意义,特别是当数据被损坏时。对于下面的实验,我们选择 λ = 4 作为 LRR。

“6.3.2 Segmentation Performance”  分割性能

在本节中,我们将展示 LRR 在给定子空间编号的子空间分割中的性能。为了进行比较,我们还列出了 PCA、RPCA1、RPCA2,1 和 SR 的结果(这些方法在 6.2 节中介绍)。

表 2 说明 LRR 的性能优于 PCA 和 RPCA。这里,LRR的优势主要在于它的方法论。更准确地说,LRR 直接针对恢复行空间V0V0T ,这可证明决定了分割结果。相反,PCA和RPCA方法被设计用于恢复列空间U0U0T  ,其被设计用于降维。人们可能已经注意到,RPCA2,1 优于 PCA 和 RPCA1。如果我们使用 l1 范数来正则化 (9) 中的 E,则分割误差为 2.03%(λ = 0.6,最佳确定)。这些表明该数据库中的错误往往是特定于样本的。

除了分割精度方面的优势之外,LRR 的另一个优点是它可以在较宽的参数设置范围内良好地工作,如图 8 所示,而 RPCA 方法对参数敏感。以RPCA1为例,选择λ = 0.32时,错误率为3.26%。然而,错误率在λ = 0.34 时增加到 4.5%,在λ = 0.3 时增加到 3.7%。

LRR 的效率(就运行时间而言)与 PCA 和 RPCA 方法相当。理论上,LRR 的计算复杂度(关于 d 和 n)与 RPCA 方法相同。 LRR 花费更多的计算时间,因为它的优化过程需要比 RPCA 更多的迭代才能收敛。

“6.3.3 Performance of Estimating Subspace Number”估计子空间数的性能

由于总共有 156 个序列,该数据库还为评估算法 3 的有效性提供了一个很好的基准,即估计数据样本集合背后的子空间数量。结果如表3所示。通过选择λ = 0.08,LRR 正确预测了 121 个序列的真实子空间数。所有序列的平均绝对误差(即 |^ k - k|)为 0.25。这些结果表明,有望解决子空间数估计问题,这是一个具有挑战性的模型估计问题。

“6.3.4 Comparing to State-of-the-Art Methods” 与最先进方法的比较

请注意,以前的方法仅报告 155 个序列的结果。丢弃简并序列后,LRR 的错误率为 1.59%,与最先进的方法相当,如表 4 所示。

LRR 的性能可以通过细化(9)进一步提高,其中使用观察到的数据矩阵 X 本身作为字典。当数据被密集噪声破坏时(现实中通常是这样),这当然不是最佳选择。在[51]和[42]中,采用非凸公式同时学习原始数据X0及其行空间V0V0T :

其中未知变量 D 用作字典。该方法的错误率可以达到1.22%。在[4]中,解释了通过考虑未观察到的隐藏数据可以缓解选​​择字典的问题。此外,推断隐藏数据的影响可以通过以下凸公式近似建模:

它将子空间分割和特征提取直观地集成到一个统一的框架中。该方法的错误率为0.85%,优于其他子空间分割算法。

虽然多种方法在 Hopkins155 上的错误率已低于 3%,但子空间分割问题还远未得到解决。长期的困难是如何解决模型选择问题,例如估计LRR的参数λ。此外,处理包含更多噪声、异常值和损坏的更复杂的数据集也并非易事。

“6.4 Results on Yale-Caltech” 耶鲁-加州理工学院的结果

此测试的目标是识别 609 个非面部异常值,并将剩余的 1,204 张面部图像分割为 38 个簇。分割和异常值检测的性能分别通过分割精度(ACC)和AUC来评估。在研究分割性能时,根据所有图像计算亲和力矩阵,包括面部图像和非面部异常值。然而,为了评估方便,在使用 NCut 获得分割结果之前,将异常值和相应的亲和力去除(根据真实情况)。

我们将所有图像调整为 20 x 20 像素,并形成大小为 400 x 1813 的数据矩阵;表 5 显示了 PCA、RPCA、SR 和 LRR 的结果。可以看出,LRR无论是在子空间分割还是异常点检测方面都优于PCA和RPCA方法。这些实验结果与定理5.2一致,说明LRR在性能上比RPCA方法有更强的保证。请注意,SR 落后于其他方法。6 这是因为异常值的存在或不存在对于重建系数的稀疏性没有必要显着警示,因此 SR 很难很好地处理被异常值污染的数据。

图9显示了参数λ从0.06到0.22变化时LRR的性能。请注意,LRR 在此数据集上比在 Hopkins155 上更敏感。这是因为 Hopkins155 的错误水平相当低(参见表 1),而 Yale-Caltach 数据集包含异常值和损坏的图像(参见图 7)。

为了可视化 LRR 在纠错方面的有效性,我们创建了另一个大小为 8,064 x 1,813 的数据矩阵,将所有图像大小调整为 96 x 84。图 10 显示了 LRR 产生的一些结果。值得注意的是,“错误”项 E 可以包含“有用”信息,例如眼睛和显着物体。这里的原理是将数据矩阵分解为低秩部分和稀疏部分,其中低秩部分(XZ)对应于整个数据集的主要特征,稀疏部分(E)对应于稀有特征。无法通过低秩子空间建模的特征。这意味着可以使用 LRR 来提取判别特征和显着区域,就像人脸识别 [4] 和显着性检测 [19] 中所做的那样。

“7 CONCLUSION AND FUTURE WORK” 结论和未来工作

在本文中,我们提出了低秩表示来识别损坏数据中的子空间结构。也就是说,我们的目标是将样本分割到各自的子空间中,并同时纠正可能的错误。 LRR 是最近建立的 RPCA 方法 [7]、[16] 的推广,将损坏数据的恢复从单个子空间扩展到多个子空间。此外,LRR 还推广了形状交互矩阵的方法,提供了一种在两个不同矩阵之间定义 SIM 的方法(参见定理 4.1),并提供了一种从损坏的数据中恢复真实 SIM(或行空间)的机制。理论和实验结果都表明了LRR的有效性。但在今后的工作中还存在一些问题。

  • 解决方案通过学习字典A可能会取得显着的改进,字典A部分决定了LRR的离子。为了精确地恢复行空间V0,定理4.3说明字典A必须满足V0 ∈ span(AT) 的条件。当数据仅受到异常值污染时,只需选择 A = X 即可满足此条件。但是,当数据包含其他类型的错误(例如密集噪声)时,此选择不能确保 V0 ∈ span(AT) 的有效性。

  • 定理 5.2 的证明特定于 A = X 的情况。作为未来的方向,看看所提出的技术是否可以扩展到 X 之外的一般字典矩阵是很有趣的。

  • LRR的一个关键问题是如何估计或选择参数λ。对于受到噪声、异常值和损坏等各种错误污染的数据,λ的估计非常具有挑战性。

  • 子空间分割不应该是LRR 的唯一应用。实际上,它已经成功地应用于分割以外的应用中,例如显着性检测[19]。一般来说,所提出的LRR方法可以扩展以很好地解决各种应用。

问题:

1.SVD?

 

 Skinny SVD仅保留了奇异值矩阵 Σ 的非零元素所在的部分,它的形状是个方阵,而 Full SVD保留了奇异值矩阵的非零部分,对应的 U 和 V 为方阵。

总结:

从损坏的观测值中恢复矩阵的 LRR 方法:

为了从被误差 E0 (X = X0 + E0) 损坏的给定观测矩阵 X 中恢复低秩矩阵 X0,可以直接考虑以下正则化秩最小化问题:

其中 λ>0 是一个参数, ||.||l表示某种正则化策略,假设D*是关于变量D的最小化器,那么它对原始数据X0给出低秩恢复。

为了更好地处理混合数据,这里我们建议一个更通用的秩最小化问题,定义如下:

其中 A 是线性跨越数据空间的“字典”。我们将最小化器 Z*(相对于变量 Z)称为数据 X 相对于字典 A 的“最低秩表示”。在获得最优解 (Z*,E*) 后,我们可以使用 AZ*(或X - E*)来恢复初始数据。由于rank(AZ*)≤ rank(Z*),AZ*也是对原始数据X0的低秩恢复。通过设置 A = I,公式 (3) 回到 (2)。所以LRR可以被视为RPCA的推广,本质上使用标准库作为字典。通过选择合适的字典A,正如我们将看到的,最低秩表示可以恢复底层行空间,从而揭示数据的真实分割。因此,LRR 可以很好地处理从多个子空间的并集提取的数据。

LRR问题分析

由于秩函数的离散性质,优化问题(3)很难解决。为了便于探索,我们从数据干净的“理想”情况开始。也就是说,我们考虑以下秩最小化问题:

很容易看出,(4) 的解可能不是唯一的。作为秩最小化问题的常见做法,我们用核范数代替秩函数,得到以下凸优化问题:

我们将证明(5)的解也是(4)的解,并且这个特殊的解对于子空间分割很有用。

“Theorem 4.1. ” 定理4.1。假设 A ≠ 0 和 X = AZ 有可行解,即 X ∈ span(A)。然后,

是 (5) 的唯一最小化器,其中 A+ 是 A 的伪逆。

根据上述定理,我们有以下推论,表明 (5) 是 (4) 的良好替代。

“Corollary 4.1.” 推论4.1。假设 A ≠ 0 和 X = AZ 有可行解。令 Z* 为 (5) 的最小化,则rank(Z*) = rank(X) 并且 Z* 也是 (4) 的最小秩解。

矩阵“l1”和“l2,1”范数分别是“l0”和“l2,0”范数的良好松弛。因此,我们可以通过解决以下凸优化问题来获得对 X0 的低秩恢复:

优化问题(7)是凸的,可以通过多种方法求解。为了提高效率,本文采用增强拉格朗日乘子(ALM)[36]、[37]方法。我们首先将(7)转换为以下等价问题:

这个问题可以通过 ALM 方法来解决,该方法最小化以下增广拉格朗日函数:

上述问题是无约束的。因此,通过固定其他变量,然后更新拉格朗日乘子 Y1 和 Y2,可以分别相对于 J、Z 和 E 使其最小化,其中 μ>0 是惩罚参数。算法 1.2 中概述了不精确 ALM 方法,也称为交替方向方法。请注意,虽然算法的步骤 1 和 3 是凸问题,但它们都有封闭解。步骤 1 通过奇异值阈值 (SVT) 算子 [38] 求解,而步骤 3 通过以下引理求解。

“Lemma 4.1 ([39]). ” 引理 4.1 ([39]) 令 Q 为给定矩阵。如果最优解为

是 W* ,那么 W* 的第 i 列是

“Algorithm 1. 算法 1.Solving Problem (7) by Inexact ALM” 通过不精确 ALM 解决问题 (7)

“Input: ” 输入:数据矩阵 X,参数 λ。

“Initialize: ” 初始化:Z = J = 0;E = 0;Y1 = 0;Y2 = 0;μ = 10-6,最大 μmax = 106; ρ= 1.1 和 ε = 10-8。

利用 LRR 来解决问题 3.1,即从一组损坏的观测值中恢复原始行空间:

1.数据干净

“Theorem 5.1.” 定理5.1。假设 X 的瘦 SVD 为 UΣV T ,则 (8) 的最小化器唯一定义为

这自然意味着当 X 干净时(即 E0 = 0),Z 完全恢复 V0V0T 。

2.存在异常值

假设 2 是假设一小部分数据样本远离底层子空间。这意味着误差项 E0 具有稀疏列支持。因此,l2,1 范数适合表征 E0。通过在 (7) 中选择 A = X,我们有以下凸优化问题:

2.1

当观察到的数据样本远离底层子空间时,典型的情况是该样本来自子空间以外的不同模型,即所谓的异常值4。在这种情况下,数据矩阵 X 包含两部分,一部分部分由严格从底层子空间中抽取的真实样本(记为 X0)组成,另一部分由非子空间成员的离群值(记为 E0)组成。为了精确描述这个设置,我们需要对X0施加一个额外的约束,即

其中 I0 是异常值的索引(即 E0 的列支持)。此外,我们使用 n 表示 X 中的数据样本总数,γ ≡ |I0|/n 表示异常值的分数,r0 表示 X0 的秩。有了这些符号,我们有以下定理,该定理表明 LRR 可以精确地恢复 X0 的行空间并识别异常值的索引。

任何最小化器对于子空间恢复都是有效的。其次,系数矩阵Z*本身并不恢复V0V0T(注意,除E* = 0外,Z*通常是不对称的),是Z*的列空间恢复了X0的行空间。第三,LRR的性能通过的γ*值测量(越大越好),γ*值取决于一些数据属性,例如不相干性和外在秩r0(r0越低则γ*越大)。

2.2

对于观察到的样本远离子空间的现象,另一种情况是该样本是真实的子空间成员,但严重损坏。通常,此类损坏仅发生在一小部分数据样本上,即所谓的“样本特定”损坏。样本特定损坏的建模与异常值相同,因为在这两种情况下 E0 都具有稀疏列支持。所以式(9)仍然适用。然而,设置(10)不再有效,因此LRR在这种情况下可能无法准确地恢复行空间V0V0T。根据经验,I = I0 的结论仍然成立[14],这意味着 E 的列支持可以识别损坏样本的索引。

如果样本严重损坏以致与底层子空间无关,则它将被视为 LRR 中的异常值

2.3

数据存在噪声时,E0 的列支持度不是严格稀疏的。尽管如此,公式(9)仍然适用,因为l2,1范数(从l2,0范数放宽)可以很好地处理近似具有稀疏列支持的信号。由于所有观测值都可能被污染,理论上不可能精确恢复行空间V0V0T 。因此,在这种情况下,我们的目标是接近恢复。

由矩阵范数的三角不等式

 

为了在理论上获得更准确的界限,需要将(9)的等式约束放宽为:

通过求解(9)得到(Z*,E*)后,标识Z*的列空间的矩阵U*(U*)T 对于子空间分割很有用。令 Z 的瘦 SVD 为 U*Σ*(V*) T ,我们定义亲和矩阵 W 如下:

 

其中 ~ U 由  U*(Σ*) 1/2  和标准化行组成。在这里,为了在损坏的数据上获得更好的性能,我们通过乘以 (Σ*) 1/2 为 U * 的每一列分配一个权重。请注意,当数据干净时,Σ* = I,因此该技术不会产生任何效果。使用 (.)2 的技术细节是确保亲和力矩阵 W 的值为正(注意矩阵 ~ U(~ U)T 可以为负值)。最后,我们可以使用诸如归一化切割[26]之类的谱聚类算法将数据样本分割成给定数量的k个簇。

算法2:子空间分割

估计子空间数k 

当得到严格块对角亲和矩阵W时,首先计算W的归一化拉普拉斯(记为L)矩阵,然后计算L的零奇异值的个数,即可求得子空间数k。虽然获得的亲和力矩阵刚好接近块对角线(现实中就是这种情况),但可以将子空间数预测为小于阈值的奇异值的数量。在这里,我们建议采用软阈值方法,通过以下方式输出估计的子空间数 ^ k

其中,n 为数据样本总数,{σi}i=1n  为拉普拉斯矩阵 L 的奇异值,(.) 为输出最接近实数整数的函数,fΓ(.) 为软阈值算子定义为

其中 0 < Γ <1 是一个参数。算法3总结了基于LRR估计子空间数的整个过程。

异常值检测

如定理5.2所示,极小值E(相对于变量E)可用于检测数据中可能存在的异常值。当所有或部分数据样本都是干净的(即假设 1 和 2)时,这可以通过查找 E 的非零列来简单地完成。对于学习到的E仅近似具有稀疏列支持的情况,可以使用阈值策略,即X的第i个数据向量被判断为异常值当且仅当

其中 δ>0 是一个参数。

由于离群值的亲和度为零或接近于零(见图4和图6),因此也可以通过丢弃亲和度小于某个阈值的数据样本来去除可能的离群值。这种策略通常用于谱型方法[13]、[34]。

使用 E 来指示异常值有一个优点,即公式(9)可以轻松扩展以包含更多先验。

优缺点:

LRR 的主要吸引力之一是它为 Costeira 和 Kanade 算法提供了理论依据。第二个优点是,与 SSC 类似,优化问题是凸的。 LLR 的一个缺点是它仅在从独立子空间提取无噪声数据的情况下才可证明是正确的。另一个缺点是优化问题涉及 O(N2) 个变量。 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值