Contents
在前面的章节中,我们一直使用 frequentist statistics 的视角来进行建模。我们将
θ
\theta
θ 视作一个常数,并假设其值可以使观测数据在理论上出现的概率最大
θ
=
arg
max
θ
∑
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
;
θ
)
\theta = \arg\max_\theta\sum\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}; \theta\right)
θ=argθmaxi=1∑mp(y(i)∣x(i);θ)
与之对应的另一种视角是 Bayesian 方法。这里我们将
θ
\theta
θ 视为一个随机变量。它具有某种先验分布
p
(
θ
)
p(\theta)
p(θ) 用来反映我们对
θ
\theta
θ 的初始猜测。根据贝叶斯公式,我们可以计算
θ
\theta
θ 的后验分布
p
(
θ
∣
S
)
=
p
(
S
∣
θ
)
p
(
θ
)
p
(
S
)
=
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
,
θ
)
p
(
θ
)
∫
θ
(
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
,
θ
)
p
(
θ
)
)
d
θ
\begin{array}{rcl} p(\theta|S) &=& \frac{p(S|\theta)p(\theta)}{p(S)}\\ &=& \frac{\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)p(\theta)}{\int_\theta\left(\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)p(\theta)\right)d\theta} \end{array}
p(θ∣S)==p(S)p(S∣θ)p(θ)∫θ(∏i=1mp(y(i)∣x(i),θ)p(θ))dθ∏i=1mp(y(i)∣x(i),θ)p(θ)
预测结果以分布的形式给出
p
(
y
∣
x
,
S
)
=
∫
θ
p
(
y
∣
x
,
θ
)
p
(
θ
∣
S
)
d
θ
p(y|x,S) = \int_\theta p(y|x,\theta)p(\theta|S)d\theta
p(y∣x,S)=∫θp(y∣x,θ)p(θ∣S)dθ
贝叶斯线性回归
设
w
∼
N
(
0
,
τ
2
I
)
w \sim N(0, \tau^2I)
w∼N(0,τ2I) 为参数的先验分布
p
(
w
)
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
,
w
)
=
1
(
2
π
)
n
/
2
∣
τ
∣
exp
(
−
w
T
w
2
τ
2
)
∏
i
=
1
m
1
2
π
σ
exp
(
−
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
σ
2
)
\begin{array}{cl} & p(w)\prod\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}, w\right)\\ =& \frac{1}{(2\pi)^{n/2}|\tau|}\exp\left(-\frac{w^Tw}{2\tau^2}\right) \prod\limits_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2}\right) \end{array}
=p(w)i=1∏mp(y(i)∣x(i),w)(2π)n/2∣τ∣1exp(−2τ2wTw)i=1∏m2πσ1exp(−2σ2(y(i)−wTx(i))2)
定义
Σ
−
1
=
τ
−
2
I
+
σ
−
2
X
T
X
u
=
σ
−
2
Σ
X
T
Y
\begin{array}{rcl} \Sigma^{-1} &=& \tau^{-2}I + \sigma^{-2}X^TX\\ u &=& \sigma^{-2} \Sigma X^TY \end{array}
Σ−1u==τ−2I+σ−2XTXσ−2ΣXTY
则可以得到1
w
∣
S
∼
N
(
u
,
Σ
)
w|S \sim N(u, \Sigma)
w∣S∼N(u,Σ)
如果将
Σ
\Sigma
Σ 的定义扩展为
Σ
−
1
=
τ
−
2
I
+
σ
−
2
X
T
X
+
σ
−
2
x
x
T
\Sigma^{-1} = \tau^{-2}I + \sigma^{-2}X^TX + \sigma^{-2}xx^T
Σ−1=τ−2I+σ−2XTX+σ−2xxT
同时定义
p
(
x
)
=
σ
2
−
x
T
Σ
x
q
(
x
)
=
x
T
Σ
X
T
Y
\begin{array}{rcl} p(x) &=& \sigma^2 - x^T\Sigma x\\ q(x) &=& x^T\Sigma X^TY \end{array}
p(x)q(x)==σ2−xTΣxxTΣXTY
则预测结果可以表示为
y
∣
x
,
S
∼
N
(
q
(
x
)
p
(
x
)
,
σ
4
p
−
2
(
x
)
)
y|x, S \sim N\left(\frac{q(x)}{p(x)}, \sigma^4p^{-2}(x)\right)
y∣x,S∼N(p(x)q(x),σ4p−2(x))
Regularization
在一些情况下,上述方法是可行的。但是如果上述推导不能得到解析解,而
θ
\theta
θ 的维度又较高,则一般采用 MAP (maximum a posterior) 来近似预测
θ
MAP
=
max
θ
(
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
,
θ
)
)
p
(
θ
)
\theta_{\text{MAP}} = \max_\theta\left(\prod_{i=1}^mp\left(y^{(i)}|x^{(i)},\theta\right)\right)p(\theta)
θMAP=θmax(i=1∏mp(y(i)∣x(i),θ))p(θ)
类似 log likelihood 对贝叶斯线性回归的后验概率取对数可得
ln
(
p
(
w
)
∏
i
=
1
m
p
(
y
(
i
)
∣
x
(
i
)
,
w
)
)
=
−
w
T
w
2
τ
2
−
C
−
∑
i
=
1
m
(
(
y
(
i
)
−
w
T
x
(
i
)
)
2
2
σ
2
+
C
i
)
=
−
1
2
σ
2
∑
i
=
1
m
(
y
(
i
)
−
w
T
x
(
i
)
)
2
−
w
T
w
2
τ
2
+
C
\begin{array}{cl} & \ln\left(p(w)\prod\limits_{i=1}^mp\left(y^{(i)}|x^{(i)}, w\right)\right)\\ =& -\frac{w^Tw}{2\tau^2} - C - \sum\limits_{i=1}^m\left(\frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2} + C_i\right)\\ =& -\frac{1}{2\sigma^2}\sum\limits_{i=1}^m\left(y^{(i)} - w^Tx^{(i)}\right)^2 - \frac{w^Tw}{2\tau^2} + C \end{array}
==ln(p(w)i=1∏mp(y(i)∣x(i),w))−2τ2wTw−C−i=1∑m(2σ2(y(i)−wTx(i))2+Ci)−2σ21i=1∑m(y(i)−wTx(i))2−2τ2wTw+C
其中
C
C
C 是与
w
w
w 无关得常数。我们在处理线性回归时曾得到
l
(
θ
)
=
−
1
2
σ
2
∑
i
=
1
m
(
y
(
i
)
−
h
(
x
(
i
)
)
)
2
+
C
l(\theta) = -\frac{1}{2\sigma^2}\sum\limits_{i=1}^m(y^{(i)} - h(x^{(i)}))^2 + C
l(θ)=−2σ21i=1∑m(y(i)−h(x(i)))2+C
如果引入
λ
=
τ
−
2
/
2
\lambda = \tau^{-2} / 2
λ=τ−2/2 则有
w
MAP
=
max
w
(
l
(
w
)
−
λ
∣
∣
w
∣
∣
2
)
w_{\text{MAP}} = \max_w \left(l(w) - \lambda||w||^2\right)
wMAP=wmax(l(w)−λ∣∣w∣∣2)
对比 MLE 使用的优化目标
w
=
max
w
l
(
w
)
w = \max_w l(w)
w=wmaxl(w)
可以看出,贝叶斯估计得到的目标函数后有一个正则项 λ ∣ ∣ w ∣ ∣ 2 \lambda||w||^2 λ∣∣w∣∣2 ,其中 λ \lambda λ 称为 regularization parameter. 由于正则项中包含 w w w 的 l 2 l_2 l2 范式,因此又被称为 l 2 l_2 l2 正则项。
本例中为了使目标函数达到最大,正则项可以限制
∣
∣
w
∣
∣
||w||
∣∣w∣∣ 在一个较小的范围,从而在一定程度上抑制过拟合。考虑到截距项的大小一般是不易变化的,在计算
l
2
l_2
l2 范式时我们常常忽略
w
0
w_0
w0 而只取
∣
∣
w
∣
∣
2
=
∑
i
=
1
n
w
i
2
||w||^2 = \sum\limits_{i = 1}^n w_i^2
∣∣w∣∣2=i=1∑nwi2
仅关注指数部分
− w T w 2 τ 2 − ∑ i = 1 m ( y ( i ) − w T x ( i ) ) 2 2 σ 2 = − 1 2 w T Σ − 1 w + σ − 2 Y T X w − 1 2 σ 2 ∣ ∣ Y ∣ ∣ 2 \begin{array}{cl} & -\frac{w^Tw}{2\tau^2} - \sum\limits_{i = 1}^m \frac{\left(y^{(i)} - w^Tx^{(i)}\right)^2}{2\sigma^2}\\ =& -\frac{1}{2}w^T\Sigma^{-1}w + \sigma^{-2}Y^TX w - \frac{1}{2\sigma^2} ||Y||^2\\ \end{array} =−2τ2wTw−i=1∑m2σ2(y(i)−wTx(i))2−21wTΣ−1w+σ−2YTXw−2σ21∣∣Y∣∣2因为 u T Σ − 1 = σ − 2 Y T X u^T\Sigma^{-1} = \sigma^{-2}Y^TX uTΣ−1=σ−2YTX 所以指数部分可以化为
− 1 2 ( w − u ) T Σ − 1 ( w − u ) + 1 2 u T Σ − 1 u − 1 2 σ 2 ∣ ∣ Y ∣ ∣ 2 -\frac{1}{2}(w - u)^T\Sigma^{-1}(w - u) + \frac{1}{2}u^T\Sigma^{-1}u - \frac{1}{2\sigma^2}||Y||^2 −21(w−u)TΣ−1(w−u)+21uTΣ−1u−2σ21∣∣Y∣∣2 over. ↩︎