1、为欠定线性系统寻找稀疏解决方案是各种领域和应用中的一个基本问题,例如网络系统 (Haupt et al., 2008)、材料科学 (Szameit et al., 2012)、医学成像 (Lustig et al., ., 2007) 等等。该问题可以形式化为
其中 Φ ∈ 是一个列数可能多于行数的矩阵,y 是我们尝试使用未知稀疏向量X表示的观察结果,代表 X中非零元素的数量。Φ 的一列 φi 是不同地称为特征或原子。
2、稀疏贝叶斯学习 (SBL) 和逐步回归。
(1)SBL 基于自动相关性确定 (ARD) 框架 (MacKay, 1992a;b) 并关注以下形式的生成模型
其中 Φ 是确定性矩阵, ∼ N (0, σ) 是独立噪声变量,系数的先验分布是 (Tipping, 2001)。每个系数都有一个独立的先验方差 ,这是 ARD 先验的定义特征。稀疏贝叶斯模型通常通过 II 型最大似然估计进行训练,这是关于的边际似然的最大化。边际似然的对数是
其中 C def= (σ2+ ),def= 。由于每个系数都有自己的先验方差,因此如果它们的先验方差接近零,则优化会有效地修剪 Φ 的无关特征。由于可证明这种情况经常发生,因此 ARD 和 SBL 是在各种应用程序中促进稀疏性的强大工具。
(2)逐步回归是一类众所周知的贪心算法(BGCD),它根据两个规则从候选解决方案中添加和删除特征:
其中是仅使用由 A 索引的特征的最小二乘残差。称为活动集
这些贪婪的启发式算法的直观吸引力和实用性能导致不同的社区重新发现相同的算法,从而产生了令人眼花缭乱的名称。
上式左侧选择特征的算法称为前向回归(Forward Regression)、前向选择(Forward Regression)、顺序递归匹配追踪 (ORMP)(Order-Recursive Matching Pursuit)、优化正交匹配追踪(Order-Recursive Matching Pursuit)、正交最小二乘法(Orthogonal Least-Squares)。
上式右侧消除特征的算法被称为向后回归(Backward Regression)、向后消除 (Backward Regression)、向后优化正交匹配追踪(Backward Optimized Orthogonal Match-
ing Pursuit )。除非另有说明,我们将它们分别简称为前向和后向算法。
3、相关优化算法:恢复稀疏信号
(1)基础追踪:是通过以下凸松弛求解 (1.1) 的框架:
在矩阵 和稀疏度 k = 的某些假设下,上式具有与 相同的全局最优值
(2)匹配追踪(MP): 的一个重要的贪心算法家族是匹配追踪(MP)及其变体。匹配追踪一次更新一个元素的候选解决方案,特定元素 i 由规则 选择,其中 是 的第 i 列, 是当前残差。正交匹配追踪 (OMP),也称为 Stagewise Regression,使用相同的规则添加特征,但在每次迭代中额外优化活动集的所有系数:
其中是给定原子集 A 的最小二乘残差。
值得注意的是,OMP 为恢复精确稀疏信号的支持问题提供了理论保证,即使对于噪声测量也是如此(Davis 等,1997;Tropp,2004;Tropp 和 Gilbert,2007;Rangan 和 Fletcher,2009;Cai 和 Wang, 2011)。最近,Matching Pursuits 成为优化算法的灵感来源:Tibshirani (2015) 提出了一个适用于组结构学习、矩阵补全和图像去噪的阶段性算法的通用框架。洛卡特洛等人。 (2018 年)开发了 MP 和坐标上升算法的统一分析,Combettes 和 Pokutta(2019 年)提出了混合匹配追踪,结合坐标下降和梯度步骤来快速计算一般凸目标的稀疏最小化。
(3)稀疏贝叶斯学习
优化 SBL 的第一个算法是基于期望最大化 (EM) 更新和 MacKay 的定点更新 (Tipping, 2001)。尽管这些方法能够获得 的稀疏解,但它们没有收敛保证并且对于大型问题很慢,因为至少与特征数量成二次缩放(Tipping,2001)。
Wipf 和 Rao (2004) 展示了如何使基于 EM 的 SBL 算法适应 l0 最小化问题 ,并证明与 BP 相比,得到的优化问题具有与 (1.1) 相同的全局最优值,并且受到较少局部优化问题的影响最小值比竞争的非凸松弛。随后,Wipf 和 Nagarajan (2008) 表明,通常的 II 型方法可以解释为具有特殊非因子先验的 I 型 (MAP) 方法。利用这种洞察力,他们提出了一种基于重新加权 l1 范数最小化的算法,该算法可证明收敛到边缘似然的局部最大值,在恢复稀疏信号方面至少与 BP 一样好,并且通常优于基于 l1、l2、和熵正则化(Wipf 和 Nagarajan,2009 年),特别是当字典是结构化和连贯的时(Wipf,2011 年)。
4、相关匹配追踪
(1)SBL 通过坐标上升
回顾介绍,C def= (σ2+ )是边际分布的协方差,def= 是权重的先验方差。在 SBL 的上下文中,我们将 称为活动集。我们分离出单个先验方差 对边际似然 (1.3) 的贡献:
其中 和 ,也被 Faul 和 Tipping (2002) 称为“质量”和“稀疏”因子。 与 中C一样,但仅包括特征 和相应的先验方差 (k ∈ A\i)。至关重要的是,关于单个先验方差 的边际似然最大值的论证是唯一的并且具有封闭形式:
上式是 Tipping and Faul (2003) 中提出的有效坐标上升更新的基础。与每次坐标更新相关的是边际可能性的变化。如果 ,我们分别用 和表示,通过上面的方程设置先验为零或非零的 对应的边际似然的变化。
我们现在做两个初步的观察。给定一个特征子集 A 和噪声方差 ,权重子集的后验均值 和方差 由下式给出
其中 和 是对应于 A 的 和 的子矩阵。伍德伯里恒等式给出
因此,。我们现在可以在导致 SBL 包含或排除一个特征的条件下表达以下结果。
5、
在描述坐标上升更新时,Tipping and Faul (2003) 故意留下几个选择:算法选择更新、添加或删除哪个方差 ?这些操作应该按什么顺序进行?
6、稀疏核回归
这些算法学习回归,这些回归被构建为基函数的加权线性组合;在存在训练数据的情况下估计权重。在许多这些算法中,允许的基函数集是不受限制的;
例如,它们可能是它们本身的原始特征,这些特征的一些非线性变换,甚至是以训练样本为中心的内核。
将 SBL 相关算法应用于核回归模型。特别是,给定输入 {xi},我们假设响应是根据 y ∼ N (f(x), σ2) 生成的,其中
其中 k 是 Matérn-3/2 内核和权重 。给定一个训练集,我们使用 SBL 相关算法优化 ,并使用上面的方程对测试集进行评估。图 4 显示了作为 UCI 波士顿住房数据(Dua 和 Graff,2017 年)的稀疏函数的平均测试误差,其中包含 506 个数据点。结果是每个算法的 4608 个稀疏误差值的平均值,由对不同容差参数 δ(即 σ)和随机 75-25 训练测试分割的评估生成。我们推测 (F)SBL 表现出更大的误差,因为它没有直接最小化平方误差,而是边缘似然。虽然 FR 在高度稀疏的解决方案中具有竞争力,但它不如 RMP 、 RMP+ 和 FoBa 有效,后者在所有稀疏级别上实现了最佳的稀疏误差权衡。