【机器学习基础】相关向量机

最新推荐文章于 2022-11-18 18:19:53 发布

天堂的鸽子

最新推荐文章于 2022-11-18 18:19:53 发布

阅读量7.5k

点赞数 7

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TIANTANGDEGEZI/article/details/102734048

版权

本系列为《模式识别与机器学习》的读书笔记。一，⽤于回归的 RVM相关向量机（relevance vector machine）或者 RVM（Tipping, 2001）是⼀个⽤于回归问题和分类问题的贝叶斯稀疏核⽅法，它具有许多 SVM 的特征，同时避免了 SVM 的主要的局限性。此外，通常会产⽣更加稀疏的模型，从⽽使得在测试集上的速度更快，同时保留了可⽐的泛化误差。给定⼀个输⼊向量 x\...

摘要由CSDN通过智能技术生成

本系列为《模式识别与机器学习》的读书笔记。

一，⽤于回归的 `RVM`

相关向量机（relevance vector machine）或者 RVM（Tipping, 2001）是⼀个⽤于回归问题和分类问题的贝叶斯稀疏核⽅法，它具有许多 SVM 的特征，同时避免了 SVM 的主要的局限性。此外，通常会产⽣更加稀疏的模型，从⽽使得在测试集上的速度更快，同时保留了可⽐的泛化误差。

给定⼀个输⼊向量 $\boldsymbol{x}$ 的情况下，实值⽬标变量t的条件概率分布，形式为

$p(t|\boldsymbol{x},\boldsymbol{w},\beta) = \mathcal{N}(t|y(\boldsymbol{x}),\beta^{-1})\tag{7.27}$

其中 $\beta=\sigma^{-2}$ 是噪声精度（噪声⽅差的倒数），均值是由⼀个线性模型给出，形式为

$y(\boldsymbol{x})=\sum_{i=1}^{M}w_i\phi_i(\boldsymbol{x})=\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})$

模型带有固定⾮线性基函数 $\phi_i(\boldsymbol{x})$ ，通常包含⼀个常数项，使得对应的权参数表⽰⼀个“偏置”。

基函数由核给出，训练集的每个数据点关联着⼀个核。⼀般的表达式可以写成与 SVM 相类似的形式

$y(\boldsymbol{x})=\sum_{n=1}^{N}w_nk(\boldsymbol{x},\boldsymbol{x}_n)+b\tag{7.28}$

其中 $b$ 是⼀个偏置参数。在⽬前的问题中，参数的数量为 $M = N + 1$ 。 $y(\boldsymbol{x})$ 与 SVM 的预测模型具有相同的形式，唯⼀的差别是系数 $a_n$ 在这⾥被记作 $w_n$ 。

假设有输⼊向量 $\boldsymbol{x}$ 的 $N$ 次观测，将这些观测聚集在⼀起，记作数据矩阵 $\boldsymbol{X}$ ，它的第 $n$ ⾏是 $\boldsymbol{x}_n^{T}$ ，其中 $n=1,\dots,N$ 。对应的⽬标值为 $\mathbf{t}=(t_1,\dots,t_N)^T$ 。因此，似然函数为

$p(\mathbf{t}|\boldsymbol{X},\boldsymbol{w},\beta)=\prod_{n=1}^{N}p(t_n|\boldsymbol{x}_n,\boldsymbol{w},\beta)\tag{7.29}$

权值先验的形式为

$p(\boldsymbol{w}|\boldsymbol{\alpha})=\prod_{i=1}^{N}\mathcal{N}(w_i|0,\alpha_{i}^{-1})\tag{7.30}$

其中 $\alpha_i$ 表⽰对应参数 $w_i$ 的精度， $\boldsymbol{\alpha}$ 表⽰ $(\alpha_1,\dots,\alpha_M)^T$ 。

权值的后验概率分布为

$p(\boldsymbol{w}|\mathbf{t},\boldsymbol{X},\boldsymbol{\alpha},\beta)=\mathcal{N}(\boldsymbol{w}|\boldsymbol{m},\boldsymbol{\Sigma})\tag{7.31}$

其中，均值和⽅差为

$\boldsymbol{m}=\beta\boldsymbol{\Sigma}\boldsymbol{\Phi}^{T}\mathbf{t}\\ \boldsymbol{\Sigma}=(\boldsymbol{A}+\beta\boldsymbol{\Phi}^{T}\boldsymbol{\Phi})^{-1}$

其中， $\boldsymbol{\Phi}$ 是 $N\times M$ 的设计矩阵，元素为 $\Phi_{ni}=\phi_i(\boldsymbol{x}_n)$ （ $i=1,\dots,N$ ），且 $\boldsymbol{A}= \text{diag}(\alpha_i)$ 。

$\boldsymbol{\alpha}$ 和 $\beta$ 的值可以使⽤第⼆类最⼤似然法（也被称为证据近似）来确定。这种⽅法中，最⼤化边缘似然函数，边缘似然函数通过对权向量积分的⽅式得到，即
$p(\mathbf{t}|\boldsymbol{X},\boldsymbol{\alpha},\beta)=\int p(\mathbf{t}|\boldsymbol{X},\boldsymbol{w},\beta)p(\boldsymbol{w}|\boldsymbol{\alpha})\mathrm{d}\boldsymbol{w}\tag{7.32}$

由于这表⽰两个⾼斯分布的卷积，因此可以计算求得对数边缘似然函数，形式为

$\begin{aligned}\ln p(\mathbf{t}|\boldsymbol{X},\boldsymbol{\alpha},\beta)&=\ln \mathcal{N}(\mathbf{t}|\boldsymbol{0},\boldsymbol{C})\\&=-\frac{1}{2}\{N\ln(2\pi)+\ln|\boldsymbol{C}|+\mathbf{t}^{T}\boldsymbol{C}^{-1}\mathbf{t}\}\end{aligned}\tag{7.33}$

其中 $\mathbf{t}= (t_1,\dots,t_N)^{T}$ ，并且定义了 $\times N$ 的矩阵 $\boldsymbol{C}$ ，形式为

$\boldsymbol{C}=\beta^{-1}\boldsymbol{I}+\boldsymbol{\Phi}\boldsymbol{A}^{-1}\boldsymbol{\Phi}^{T}$

现在的⽬标是关于超参数 $\boldsymbol{\alpha}$ 和 $\beta$ 最⼤化公式。

⽅法一，简单地令要求解的边缘似然函数的导数等于零，然后得到了下⾯的重估计⽅程
$a_{i}^{新}=\frac{\gamma_i}{m_i^2}\tag{7.34}$

$(\beta^{新})^{-1}=\frac{\|\mathbf{t}-\boldsymbol{\Phi}\boldsymbol{m}\|^{2}}{N-\sum_{i}\gamma_i}\tag{7.35}$

最低0.47元/天解锁文章

天堂的鸽子

关注

7
点赞
踩
80

收藏

觉得还不错? 一键收藏
1
评论
【机器学习基础】相关向量机

本系列为《模式识别与机器学习》的读书笔记。一，⽤于回归的 RVM相关向量机（relevance vector machine）或者 RVM（Tipping, 2001）是⼀个⽤于回归问题和分类问题的贝叶斯稀疏核⽅法，它具有许多 SVM 的特征，同时避免了 SVM 的主要的局限性。此外，通常会产⽣更加稀疏的模型，从⽽使得在测试集上的速度更快，同时保留了可⽐的泛化误差。给定⼀个输⼊向量 x\...
复制链接

扫一扫