稀疏贝叶斯学习(Sparse Bayesian Learning, SBL)方法详解
本文将介绍什么是稀疏贝叶斯学习、它的数学原理、与其他稀疏方法的比较、以及实现与常见问题,最后进行总结。
1. 简介
1.1 稀疏贝叶斯学习的概念
稀疏贝叶斯学习(Sparse Bayesian Learning, SBL)是一类将贝叶斯思想与稀疏约束相结合的模型,旨在自动从高维数据中选择最相关的特征(即令大部分不重要的权重趋于零),从而简化模型并提升可解释性。与常见的基于L1正则化(如Lasso)的稀疏方法相比,SBL还能给出模型参数以及特征重要性的后验分布,从而量化不确定性。
在回归、分类、信号处理等问题中,SBL均有广泛应用。它的核心特点是通过层次化先验(如Automatic Relevance Determination, ARD)来实现特征选择,并且可以在贝叶斯框架下,对特征重要性给出概率解释。
2. 数学原理
以下将以回归问题为例,介绍稀疏贝叶斯学习的主要数学推导。分类任务的原理与之相似,只是似然函数形式有所不同。
2.1 回归模型与贝叶斯框架
我们考虑一个线性回归模型:
y = X w + ϵ , ϵ ∼ N ( 0 , σ 2 I ) , \mathbf{y} = \mathbf{X}\mathbf{w} + \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}), y=Xw+ϵ,ϵ∼N(0,σ2I),
其中 X ∈ R N × M \mathbf{X} \in \mathbb{R}^{N \times M} X∈RN×M 为输入特征矩阵, y ∈ R N \mathbf{y} \in \mathbb{R}^{N} y∈RN 为输出向量, w ∈ R M \mathbf{w} \in \mathbb{R}^{M} w∈RM 为模型参数(权重), σ 2 \sigma^2 σ2 为噪声方差。在贝叶斯统计的框架下,参数 w \mathbf{w} w被视为随机变量,我们要关心的是其后验分布 p ( w ∣ X , y ) p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}) p(w∣X,y),而贝叶斯定理告诉我们:
p ( w ∣ X , y ) = p ( y ∣ X , w ) p ( w ) p ( y ∣ X ) . p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}) = \frac{p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}) \, p(\mathbf{w})}{p(\mathbf{y} \mid \mathbf{X})}. p(w∣X,y)=p(y∣X)p(y∣X,w)p(w).
其中,
- p ( y ∣ X , w ) p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}) p(y∣X,w) 为似然函数,即 N ( X w , σ 2 I ) \mathcal{N}(\mathbf{X}\mathbf{w}, \sigma^2 \mathbf{I}) N(Xw,σ2I)。