线性回归
线性回归是一种对自变量和因变量之间的关系进行建模的回归分析。自变量就是样本的特征向量
x
x
x,因变量就是标签
y
y
y,
y
y
y是连续值,假设空间是一组参数化的线性函数。
f
(
x
;
w
,
b
)
=
w
T
x
+
b
f(x;w, b) = w^Tx + b
f(x;w,b)=wTx+b
其中,权重向量
w
w
w和偏置
b
b
b都是可学习的参数,函数
f
(
x
;
w
,
b
)
f(x;w, b)
f(x;w,b)也称为线性模型。将公式改写为
f
(
x
;
w
^
)
=
w
^
T
x
^
f(x; \hat w) = \hat w^T\hat x
f(x;w^)=w^Tx^
其中,
w
^
\hat w
w^和
x
^
\hat x
x^ 分别称为增广权重向量
和增广特征向量
。在后面的介绍中,用
w
w
w,
x
x
x分别代表增广权重向量和增广特征向量。模型简化为
f
(
x
;
w
)
=
w
T
x
f(x;w) = w^Tx
f(x;w)=wTx。
参数学习
给定有 N N N个训练样本的训练集 D = ( x ( n ) , y ( n ) ) , 1 ≤ n ≤ N D = {(x^{(n)}, y^{(n)})}, 1 ≤ n ≤ N D=(x(n),y(n)),1≤n≤N,学习一个最优的线性回归模型的参数 w w w,分别使用如下四种参数估计方法。
1.经验风险最小化
由于模型输出标签为连续的实数值,所以这里使用平方损失函数
来衡量真实标签和预测标签之间的差异。训练集上定义经验风险为
其中,
y
y
y是每个样本的真实标签组成的列向量,
X
X
X是所有输入样本特征向量组成的矩阵。
风险函数是
w
w
w的凸函数,对
w
w
w求偏导,有
令偏导数为0,得到最优的参数为
这种求解线性回归参数的方法也称为最小二乘法。
注:在这种方法中,
X
X
T
XX^T
XXT必须存在逆矩阵,参数才有解,当不可逆时可以先使用主成分分析等方法预处理数据,再使用最小二乘估计方法来求解。或者直接用梯度下降法
求解。
2.结构风险最小化
为了解决经验风险最小化中必须保证
X
X
T
XX^T
XXT可逆这一问题,提出岭回归
,给
X
X
T
XX^T
XXT的对角线元素都加上一个常数
λ
λ
λ使得
(
X
X
T
+
λ
I
)
(XX^T + λI)
(XXT+λI)满秩,这样最优的参数为
这里的解可以看做是结构风险最小化准则
下的最小二乘法估计。结构风险最小化等价于正则化
,是为了防止过拟合提出的策略。在经验风险上加上表示模型复杂度的正则化项。
λ
>
0
\lambda>0
λ>0为正则化系数。
3.最大似然估计
最大似然估计通过建模条件概率
p
(
y
∣
x
)
p(y|x)
p(y∣x)的角度来进行参数估计,假设标签
y
y
y为一个随机变量,其服从以均值为
f
(
x
;
w
)
=
w
T
x
f(x;w) = w^Tx
f(x;w)=wTx,方差为
σ
2
σ^2
σ2 的高斯分布。
参数
w
w
w在训练集
D
D
D上的似然函数
为
其中,
y
=
[
y
(
1
)
,
⋅
⋅
⋅
,
y
(
N
)
]
T
y = [y^{(1)}, · · · , y^{(N)}]^T
y=[y(1),⋅⋅⋅,y(N)]T为所有样本标签组成的向量,
X
=
[
x
(
1
)
,
⋅
⋅
⋅
,
x
(
N
)
]
X = [x^{(1)}, · · · , x^{(N)}]
X=[x(1),⋅⋅⋅,x(N)] 为所有样本特征向量组成的矩阵。
注:似然函数
p
(
x
∣
w
)
p(x|w)
p(x∣w)的含义是已知随机变量
x
x
x时,不同的参数
w
w
w对其分布的影响。
为方便计算,对似然函数取对数得到对数似然函数。
然后进行最大似然估计
,就是说找到一组参数
w
w
w使得似然函数
p
(
y
∣
X
;
w
,
σ
)
p(y|X;w, σ)
p(y∣X;w,σ)最大,等价于对数似然函数最大。注:这里可以理解为找到一个参数,在这组参数下得到此训练集中的样本的概率最大,也就是说对应上此样本集,从而求得参数。
对对数似然函数求导,使其等于0,得到下式,最大似然估计的解和最小二乘估计的解相同。
4.最大后验估计
- 回忆基础知识
贝叶斯定理
:描述的是在已知一些条件下,某事件的发生几率。是关于随机事件A和B的条件概率的一则定理。
在更一般化的情况,假设{Ai}是事件集合里的部分集合,对于任意的Ai,贝叶斯定理可用下式表示。
注:分母的变换由全概率公式
得到,假设 { B n : n = 1 , 2 , 3 , . . . } \lbrace Bn : n = 1, 2, 3, ... \rbrace {Bn:n=1,2,3,...}是一个概率空间的有限或者可数无限的分割(即 B n Bn Bn为一完备事件组),且每个集合 B n Bn Bn是一个可测集合,则对任意事件A有全概率公式:
又可以写做
后验概率
:一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。
后验概率是在给定证据 X X X后,参数 θ \theta θ的概率: p ( θ ∣ X ) p(\theta |X) p(θ∣X)。与似然函数相对,其为在给定了参数 θ \theta θ后,证据 X X X的概率: p ( X ∣ θ ) p(X|\theta ) p(X∣θ)。
两者的联系是:定义参数先验概率服从的分布为 p ( θ ) p(\theta) p(θ),样本 x x x的可能性为 p ( x ∣ θ ) p(x|\theta) p(x∣θ),那么后验概率定义为
其正比于
可能性(也就是似然函数
) x 先验概率。所以也可以理解为一个随机变量在给定另一随机变量值之后的后验概率分布可以通过先验概率分布与似然函数相乘并除以归一化常数求得。
- 最大后验概率估计
假设参数 w w w为一个随机向量,并服从一个先验分布
p ( w ; ν ) p(w; ν) p(w;ν)。简单起见,一般令 p ( w ∣ ν ) p(w|ν) p(w∣ν)为各向同性的高斯分布。
根据贝叶斯公式,那么参数 w w w的后验概率
分布为
其中, p ( y ∣ X ; w , σ ) p(y|X;w, σ) p(y∣X;w,σ)为w的似然函数, p ( w ; ν ) p(w; ν) p(w;ν)为w的先验概率分布。这种估计参数 w w w的后验概率分布的方法称为贝叶斯估计
,采用贝叶斯估计的线性回归也称为贝叶斯线性回归
。
找到最优的参数值,可以使用最大后验概率估计
,就是找到最优参数为后验分布中概率密度最高的参数 w w w。
对后验概率取对数得到
等价于平方损失的结构风险最小化。这里正则化系数为 λ = σ 2 / ν 2 λ = σ^2/ν^2 λ=σ2/ν2。
参考文献
https://zh.wikipedia.org/wiki/后验概率
https://zh.wikipedia.org/wiki/全概率公式
https://zh.wikipedia.org/wiki/贝叶斯定理