1.1.10. Bayesian Regression
一、简介
贝叶斯概率理论体系在机器学习中有着举足轻重的地位。其实很多时候,我们机器学习的算法从本质上来看,就是一种统计学习方法。所以,贝叶斯概率学派的很多思想,是理解机器学习的关键所在。
贝叶斯回归显然是贝叶斯理论在线性回归的一个应用。sklearn一上来就给出了一条很重要的性质:在贝叶斯概率模型中,我们用参数的概率分布(参数本身具有分布的形式),取代了常规正则化。
1.1 形式
唔,我们发现,Ridge回归(分类)中的 l 2 l_2 l2 范数,其实就等价于:在高斯分布的先验假设下,最大化的、精度为 λ − 1 \lambda^{-1} λ−1的、参数 ω \omega ω 的后验概率。(其中, λ \lambda λ可以作为一个随机变量,从数据集中估计)
所以,对于贝叶斯线性回归模型:
- 我们假定 y y y 是满足 X ω X\omega Xω 的高斯分布(其实,这从一定程度上反映了中心极限定理,即:在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布)
- 我们用,可以在数据集中估计的随机变量 α \alpha α ,来取代传统的正则参数。而 α \alpha α 在模型中,又是作为 y y y 对 X ω X\omega Xω 高斯分布的参数存在的。
1.2 优劣
这就简单翻译一下。
优点:
- 它能根据已有的数据进行改变。(一定程度上反映了自适应性)
- 可以在优化模型的过程中,就把正则项给估计出来了
缺点:
- 它的推断过程是非常耗时的。
二、模型
2.1 Bayesian Ridge Regression (贝叶斯岭回归)
贝叶斯岭回归我们刚才说的贝叶斯回归的一种经典形式。他在贝叶斯回归上,对参数 ω \omega ω 的分布做了进一步的假设,即满足高斯球分布。
先验参数
α
\alpha
α 和
λ
\lambda
λ 一般是服从 gamma
分布 , 这个分布与高斯成共轭先验关系。
得到的模型一般称为贝叶斯岭回归, 并且这个模型与传统的Ridge
非常相似。参数
ω
\omega
ω,
α
\alpha
α 和
λ
\lambda
λ 是在模型拟合的时候一起被估算出来的。 剩下的超参数就是关于
α
\alpha
α和
λ
\lambda
λ的 gamma
分布的先验了。 它们通常被选择为无信息先验 (我们看到,在sklearn中,我们没有再对表示参数分布的参数的分布的参数再做调整。模型参数的估计一般利用最大边缘似然对数估计 。
不过,因为是概率模型,我们发现贝叶斯岭回归得到的参数会和最小二乘得到的参数有轻微的不同。但是,在面对病态问题时,贝叶斯回归更加稳定。
2.2 Automatic Relevance Determination - ARD (自动相关确定)
这部分内容涉及大量我个人的主观看法,如果有问题请大家指正。
下面介绍的这个模型,我们暂时先叫它Sparse Bayesian Learning
稀疏贝叶斯学习模型。
稀疏贝叶斯做了一件什么事:
在传统模型中,我们通过正则来对参数进行约束,从而求得目标函数的稀疏解。
在贝叶斯回归中,我们的对参数的约束不再是通过正则施加的,而是存在于对参数先验分布的假设中。
稀疏贝叶斯的线性回归,也就是sklearn中指的ARD的具体形式,就是提出了一个不同的 ω \omega ω 的先验假设。具体来说,就是弱化了高斯分布为球形的假设。它采用 ω \omega ω 的分布是与轴平行的椭圆高斯分布,(这种分布应该具有和 l 1 l_1 l1范数相似的性质)最终产生稀疏解。
补充:
- 稀疏贝叶斯,可以套用核函数,推广到非线性的数据集上
- ARD自动相关确定应该指更广义的一种思想,Lasso和稀疏贝叶斯这种通过正则和先验对参数施加限制的是一种类型;
另一方面,如果我们制定一种规则(比如将矩阵优化为对角矩阵),让其主动的舍弃类似 l 2 l_2 l2范数约束导致的参数(影响)较小的特征,是另一种形式(两者也并不冲突) - 这可能是它为什么叫“
Relevance Vector Machine
相关支持向量机”的原因,因为支持向量机本身就具备稀疏属性。