线性回归模型
首先明确回归模型的定义或者说回归模型和分类模型的区别:预测值是一个连续变量
一个常见的误解是linear model和linear regression之前的区别,线性模型是指对于参数 w w w是线性的,而提到线性回归又往往值对x的线性组合
Linear Basic Function Models
线性回归 linear regression
最简单的的线性模型:对输入向量的线性组合
y ( x , w ) = w 0 + w 1 x 1 + ⋯ + w D x D y(\textbf{x},w)=w_0+w_1x_1+\cdots+w_Dx_D y(x,w)=w0+w1x1+⋯+wDxD
此模型既是参数 w w w的线性函数,也是输入变量 x i x_i xi的线性函数
Linear Basic Function Models
单纯的线性组合使模型有较大的局限性,所以有如下扩展
y
(
x
,
w
)
=
w
0
+
∑
j
=
1
M
−
1
w
j
ϕ
j
(
x
)
y(\textbf{x},w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(x)
y(x,w)=w0+j=1∑M−1wjϕj(x)
ϕ
j
\phi_j
ϕj称为基函数(basic function)
令
ϕ
0
(
x
)
=
1
\phi_0(x)=1
ϕ0(x)=1,则上式可以化作
y
(
x
,
w
)
=
∑
j
=
0
M
−
1
w
j
ϕ
j
(
x
)
=
w
T
ϕ
(
x
)
y(\textbf{x},w)=\sum_{j=0}^{M-1}w_j\phi_j(x)=\textbf{w}^T\boldsymbol{\phi}(\mathbf{x})
y(x,w)=j=0∑M−1wjϕj(x)=wTϕ(x)
Basic function
-
ϕ j = x j \phi_{j}=x_{j} ϕj=xj
-
ϕ j = exp { − ( x − μ j ) 2 2 s 2 } \phi_{j}=\exp\{-\frac{(x-\mu_j)^2}{2s^2}\} ϕj=exp{−2s2(x−μj)2}
-
ϕ j ( x ) = σ ( x − μ j s ) \phi_j(x)=\sigma(\frac{x-\mu_{j}}{s}) ϕj(x)=σ(sx−μj)
-
t a n h = 2 σ ( a ) − 1 tanh=2\sigma(a)-1 tanh=2σ(a)−1
最大似然和最小二乘
正常来说最大似然法是参数估计的方法,但是可以通过假设模型有一个高斯噪声,来用最大似然求解xx问题。
目标变量
t
t
t,确定性函数
y
(
x
,
w
)
y(\mathbf{x},w)
y(x,w),高斯噪声
ϵ
\epsilon
ϵ
t
=
y
(
x
,
w
)
+
ϵ
t=y(\mathbf{x},w)+\epsilon
t=y(x,w)+ϵ
则
p
(
t
∣
X
,
w
,
β
)
=
∏
i
=
1
N
N
(
t
n
∣
w
T
ϕ
(
x
n
)
,
β
−
1
)
p(\mathbf{t}|X,w,\beta)=\prod_{i=1}^N\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})
p(t∣X,w,β)=∏i=1NN(tn∣wTϕ(xn),β−1)
l
n
(
t
∣
w
,
β
)
=
∑
n
=
1
N
l
n
N
(
t
n
∣
w
T
ϕ
(
x
n
)
,
β
−
1
)
=
N
2
l
n
β
−
N
2
l
n
(
2
π
)
−
β
E
D
(
w
)
E
D
=
1
2
∑
n
=
1
N
(
t
n
−
w
T
ϕ
(
x
n
)
)
2
ln(\mathbf{t}|w,\beta)=\sum_{n=1}^N ln\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})\\ =\frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)-\beta E_D(w)\\ E_D=\frac{1}{2}\sum_{n=1}^N(t_n-w^T\phi(x_n))^2
ln(t∣w,β)=n=1∑NlnN(tn∣wTϕ(xn),β−1)=2Nlnβ−2Nln(2π)−βED(w)ED=21n=1∑N(tn−wTϕ(xn))2
∇
w
l
n
(
t
∣
w
,
β
)
=
0
w
M
L
=
(
Φ
T
Φ
)
−
1
Φ
T
t
Φ
=
[
ϕ
0
(
x
1
)
ϕ
1
(
x
1
)
⋯
ϕ
M
−
1
(
x
1
)
⋯
⋯
⋯
⋯
ϕ
0
(
x
N
)
ϕ
1
(
x
N
)
⋯
ϕ
M
−
1
(
x
N
)
]
\nabla_w ln(\mathbf{t}|w,\beta)=0\\ w_{ML}=(\Phi^T\Phi)^{-1}\Phi^Tt\\ \Phi=\begin{bmatrix} \phi_{0}(x_{1})&\phi_{1}(x_{1})&\cdots&\phi_{M-1}(x_{1})\\ \cdots&\cdots&\cdots&\cdots\\ \phi_{0}(x_{N})&\phi_{1}(x_{N})&\cdots&\phi_{M-1}(x_{N}) \end{bmatrix}
∇wln(t∣w,β)=0wML=(ΦTΦ)−1ΦTtΦ=⎣⎡ϕ0(x1)⋯ϕ0(xN)ϕ1(x1)⋯ϕ1(xN)⋯⋯⋯ϕM−1(x1)⋯ϕM−1(xN)⎦⎤
所以可以看出使用最大似然法求解w的方法和使用最小二乘法求解的方法是等价的
Sequential learning
使用最大似然法求出的参数
w
w
w是使用全部数据计算而出的,对于较大的数据集其计算量是不可接受的。所以可以分批利用数据集,此方法s称作sequential learning
他有一个更有名的名字:随机梯度下降
w
τ
+
1
=
w
τ
−
η
∇
E
n
w^{\tau+1}=w^{\tau}-\eta\nabla E_n
wτ+1=wτ−η∇En
正则化最小二乘
为了避免过拟合,我们在损失函数中加入正则化项
E
D
(
w
)
+
λ
E
W
(
w
)
E_D(w)+\lambda E_W(w)
ED(w)+λEW(w)
λ
\lambda
λ为正则化系数
常见的正则化函数
E
W
(
w
)
=
1
2
w
T
w
E_W(w)=\frac{1}{2}w^Tw
EW(w)=21wTw
可以解得有正则化下
w
w
w的解
w
=
(
λ
I
+
Φ
T
Φ
)
−
1
Φ
T
t
w=(\lambda I+\Phi^T\Phi)^{-1}\Phi^T t
w=(λI+ΦTΦ)−1ΦTt
从约束问题理解正则化
m
i
n
E
D
s
.
t
.
E
W
≤
η
min\ E_{D}\\ s.t.\ E_W\le \eta
min EDs.t. EW≤η