【说明:这片篇博文为翻译伦敦大学学院一位老师写的资料,水平有限翻译不准确的地方请参见一下英文的文档。英文版的下载:链接】
简介
这篇文档主要是为了帮助刚入门机器学习的学生更好的理解Tipping的相关向量机(RVM:Relevance Vector Machines)。本文档假设读者具有一定的贝叶斯理论,高斯分布以及条件和边缘高斯分布的理论知识。并且熟悉矩阵微分、回归向量的表示和核函数。(译者:可以参考斯坦福大学的机器学习公开课内容) 这篇文档分为两部分:1、介绍了需要解决的问题即在某些超参数情况下最大化回归目标值的后验概率。分析过程中会一步一步推导这些公式,每一步推导过程做到尽可能详细有理可循。2、从一个算法的角度解释这个问题,并且给出一个示例。
公式约定
1、
P(A|B,C)
为在B,C给定情况下A的概率。在文中后面表示的时候,会省略和A独立的条件项。
2、
X∼(μ,σ2)
即X为均值为
μ
方差
σ
的高斯分布
3、粗体代表向量和矩阵
第一节:理论
1.1 论证逼近理论
常规的线性回归问题即找到向量参数W和偏置
c
,根据这两个参数值在不知道输入
y=WTϕ(x)
其中
x→ϕ(x)
是某种非线性映射(也就是基函数)。
当我们尝试通过训练样本计算W的时候,我们假设每一个目标 ti 可以看做为 yi 叠加了噪声之后的值。
ti=yi+ϵi
=WTϕ(x)+ϵi
其中
ϵi
假设均值为0方差为
σ2
的独立高斯噪声过程,即
ϵi∼(0,σ2)
。也就是
P(ti|xi,W,σ2)∼N(0,σ2)
=(2πσ2)−0.5exp{−12σ2(ti−yi)2}
=(2πσ2)−0.5exp{−12σ2(ti−WTϕ(x))2}
现在我们同时训练N个点,则向量
t
代表了所有独立的训练点
P(t|xi,w,σ2)=∏i=1NN(WTϕ(x),σ2)
=∏i=1N(2πσ2)−0.5exp{−12σ2(ti−WTϕ(x))2}
=(2πσ2)−0.5exp{−12σ2||t−ΦW||2}
尼玛!本来快写完了,不知道为什么存的草稿没了!!!!!ps:大家还是看英文的吧。。。