文章目录
与多项式回归的对比:多项式基函数的缺点,详细以后再补存
常用基函数
3.1.1 Maximum likelihood and least squares
与GMM的区别:单峰的而GMM是多峰的
多个数据此时下标表示样本个数
由正态分布得到具体的形式
高斯噪声、线性模型最大化似然等价于最小化MSE
一点点简单的证明
f
=
w
T
ϕ
(
x
n
)
f=\mathbf{w}^T\mathbf{\bm\phi(x_n)}
f=wTϕ(xn)
d
f
=
(
d
w
)
T
ϕ
(
x
n
)
df=\mathbf{(dw)}^T\mathbf{\bm\phi(x_n)}
df=(dw)Tϕ(xn)
d
f
=
t
r
(
(
d
w
)
T
ϕ
(
x
n
)
)
df=tr(\mathbf{(dw)}^T\mathbf{\bm\phi(x_n)})
df=tr((dw)Tϕ(xn))
d
f
=
t
r
(
ϕ
(
x
n
)
T
d
w
)
df=tr(\mathbf{\bm\phi(x_n)}^T\mathbf{dw})
df=tr(ϕ(xn)Tdw)
∂
f
∂
w
=
ϕ
(
x
n
)
\frac{\partial f}{\partial \mathbf{w}}=\mathbf{\bm\phi(x_n)}
∂w∂f=ϕ(xn)
标量对列向量的求导还是列向量,因此书中不是转置(写成行向量求导更容易)
书中统一将导数转化为行向量,可以使得计算 w w w方便,如下示
就以列向量进行推导
0
=
∑
n
=
1
N
t
n
ϕ
(
x
n
)
−
∑
n
=
1
N
w
T
ϕ
(
x
n
)
ϕ
(
x
n
)
0=\sum_{n=1}^{N} t_{n} \phi\left(\mathbf{x}_{n}\right)-\sum_{n=1}^{N} \mathbf{w}^{\mathrm{T}}\phi\left(\mathbf{x}_{n}\right) \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)
0=n=1∑Ntnϕ(xn)−n=1∑NwTϕ(xn)ϕ(xn)
0
=
∑
n
=
1
N
t
n
ϕ
(
x
n
)
−
∑
n
=
1
N
ϕ
(
x
n
)
w
T
ϕ
(
x
n
)
0=\sum_{n=1}^{N} t_{n} \phi\left(\mathbf{x}_{n}\right)-\sum_{n=1}^{N} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\mathbf{w}^{\mathrm{T}}\phi\left(\mathbf{x}_{n}\right)
0=n=1∑Ntnϕ(xn)−n=1∑Nϕ(xn)wTϕ(xn)
0
=
∑
n
=
1
N
t
n
ϕ
(
x
n
)
−
∑
n
=
1
N
ϕ
(
x
n
)
ϕ
(
x
n
)
T
w
0=\sum_{n=1}^{N} t_{n} \phi\left(\mathbf{x}_{n}\right)-\sum_{n=1}^{N} \phi\left(\mathbf{x}_{n}\right)\boldsymbol{\phi}\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \mathbf{w}
0=n=1∑Ntnϕ(xn)−n=1∑Nϕ(xn)ϕ(xn)Tw
第一项是
Φ
T
t
\boldsymbol{\Phi^{\mathrm{T}} \boldsymbol{t}}
ΦTt,第二项是
Φ
T
Φ
w
\boldsymbol{\Phi}^{\mathrm{T}}\boldsymbol{\Phi}\boldsymbol{w}
ΦTΦw
方差的估计值