《神经网络与深度学习》-邱锡鹏-第2章机器学习概述-作业
虽然有不少整理过邱锡鹏老师这本教材答案的博文,但是不少博文都是抄的那固定的几篇,并且存在某些明显错误。想用这种方式来记录我的学习过程。顺便也给自己一个交代,让自己好好学习一番,以后也可以给师弟师妹们留下一些遗产。
吕守晔
2022年8月22日于重庆
习题2-1
题目
分析为什么平方损失函数不适用于分类问题。
个人解答
分类问题实际上是在寻求一个概率,而平方损失函数则是在距离的基础上进行衡量,而实际上分类并没有距离上的差别。尽管经过Sigmoid函数后的概率值数值上是连续的,可以使用平方损失,但我们所关注的是分类的问题,也即是最后是否分类正确。如果硬是要在中间的概率值上使用平方损失优化可能并不能带来较好的体验与效果。从
[
0.2
,
0.2
,
0.6
]
\left [ 0.2, 0.2, 0.6\right ]
[0.2,0.2,0.6]到
[
0.1
,
0.1
,
0.8
]
\left [ 0.1, 0.1, 0.8\right ]
[0.1,0.1,0.8]的这个过程意义不大,并没有带来显著性提升。
同时,参考这篇文章,我们还可以从优化的角度来理解这个问题。除了文章里提到的图以外,在李宏毅老师的PPT里面有两张图:
上下两图分别为使用交叉熵、平方损失作为损失函数下的损失情况,横纵轴分别为参数L1与L2。可以看出,如果使用平方损失,在优化的时候很容易卡住,而使用交叉熵的话更好优化。
习题2-2
题目
在线性回归中,如果我们给每个样本
(
x
(
n
)
,
y
(
n
)
)
(\bm{x}^{(n)},y^{(n)})
(x(n),y(n))赋予一个权重
r
(
n
)
r^{(n)}
r(n),经验风险函数为
R ( ω ) = ∑ n = 1 N r ( n ) ( y ( n ) + ω T x ( n ) ) 2 R(\bm{\omega}) = \sum_{n=1}^N{r^{(n)}\left (y^{(n)} +\bm{\omega}^{T}\bm{x}^{(n)}\right )}^{2} R(ω)=n=1∑Nr(n)(y(n)+ωTx(n))2
计算其最优参数 ω ∗ \bm{\omega}^* ω∗,并分析权重 r ( n ) r^{(n)} r(n)的作用.
个人解答
在这里需要先分析
r
(
n
)
r^{(n)}
r(n)的作用到底是什么。从上面的风险函数可以看出,
r
(
n
)
r^{(n)}
r(n)作用于每一个样本,也就是说
r
(
n
)
r^{(n)}
r(n)可以对数据进行筛选,倘若
r
(
n
)
r^{(n)}
r(n)越大,那么该数据对于结果的影响程度也就越大。可通过设置
r
(
n
)
r^{(n)}
r(n)来设置权重。
到这里需要明白
r
(
n
)
r^{(n)}
r(n)的特性:作用于第n个样本,而对其他的样本不提供任何影响。
R
(
ω
)
=
∑
n
=
1
N
r
(
n
)
(
y
(
n
)
+
ω
T
x
(
n
)
)
2
=
∑
n
=
1
N
[
r
(
n
)
(
y
(
n
)
+
ω
T
x
(
n
)
)
]
2
\begin{equation*} \begin{split} R(\bm{\omega})&=\sum_{n=1}^N{r^{(n)}\left (y^{(n)} +\bm{\omega}^{T}\bm{x}^{(n)}\right )}^{2}\\ &= \sum_{n=1}^N \left [{\sqrt{r^{(n)}}\left (y^{(n)} +\bm{\omega}^{T}\bm{x}^{(n)}\right ) }\right ]^{2} \end{split} \end{equation*}
R(ω)=n=1∑Nr(n)(y(n)+ωTx(n))2=n=1∑N[r(n)(y(n)+ωTx(n))]2
到了这一步,我们需要开始考虑如果转换为向量的形式,
r
(
n
)
r^{(n)}
r(n)会以何种形式存在了。在书中我们不难得知,如果没有
r
(
n
)
r^{(n)}
r(n),那么在这里进一步化简的结果会是
R
(
ω
)
=
1
2
∣
∣
y
−
X
T
ω
∣
∣
2
R(\bm{\omega})=\frac{1}{2} \left | \left | { \bm{y}-X^T\bm{\omega}}\right|\right|^{2}
R(ω)=21∣
∣∣
∣y−XTω∣
∣∣
∣2
那么在这里我们可以结合上面的分析来考虑
r
(
n
)
r^{(n)}
r(n)。我们希望,在这里
r
(
n
)
r^{(n)}
r(n)所对应的向量形式
R
R
R能对损失值进行修正。在部分的解答中,认为这里的
R
R
R是一个列向量,实则不然。如果是一个列向量的话,在这个地方应该表示为
R
(
ω
)
=
1
2
∣
∣
R
T
(
y
−
X
T
ω
)
∣
∣
2
R(\bm{\omega})=\frac{1}{2} \left | \left | {R^T\left( \bm{y}-X^T\bm{\omega}\right)}\right|\right|^{2}
R(ω)=21∣
∣∣
∣RT(y−XTω)∣
∣∣
∣2
通过线性代数的知识,我们知道,一个
N
×
1
N\times1
N×1的向量乘以一个
1
×
N
1\times N
1×N的向量,最终会得到一个标量。而这个标量再求取平方,很明显和不考虑
r
(
n
)
r^{(n)}
r(n)时是完全不一样的。你可以理解为差的平方的和与差的和的平方这样的差异,所以在这里
R
R
R不是一个向量,而是一个
N
×
N
N\times N
N×N的矩阵。
这个矩阵为一个对角矩阵,仅有对角线上的元素不为0,且第
i
i
i行的元素为
r
(
i
)
\sqrt{r^{(i)}}
r(i)。即
A
=
[
r
(
1
)
0
⋯
0
0
r
(
2
)
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
r
(
N
)
]
A=\begin{bmatrix} {\sqrt{r^{(1)}}}&{0}&{\cdots}&{0} \\ {0}&{\sqrt{r^{(2)}}}&{\cdots}&{0} \\ {\vdots}&{\vdots}&{\ddots}&{\vdots} \\ {0}&{0}&{\cdots}&{\sqrt{r^{(N)}}} \\ \end{bmatrix}
A=⎣
⎡r(1)0⋮00r(2)⋮0⋯⋯⋱⋯00⋮r(N)⎦
⎤
基于以上的论断,我们可以进一步进行运算
R
(
ω
)
=
1
2
∣
∣
R
(
y
−
X
T
ω
)
∣
∣
2
=
1
2
[
R
(
y
−
X
T
ω
)
]
T
[
R
(
y
−
X
T
ω
)
]
=
1
2
(
y
−
X
T
ω
)
T
R
T
R
(
y
−
X
T
ω
)
\begin{equation*} \begin{split} R(\bm{\omega})&=\frac{1}{2} \left | \left | {R\left( \bm{y}-X^T\bm{\omega}\right)}\right|\right|^{2}\\ &=\frac{1}{2}\left[R\left( \bm{y}-X^T\bm{\omega}\right)\right]^T\left[R\left( \bm{y}-X^T\bm{\omega}\right)\right]\\ &=\frac{1}{2}\left( \bm{y}-X^T\bm{\omega}\right)^TR^TR\left( \bm{y}-X^T\bm{\omega}\right) \end{split} \end{equation*}
R(ω)=21∣
∣∣
∣R(y−XTω)∣
∣∣
∣2=21[R(y−XTω)]T[R(y−XTω)]=21(y−XTω)TRTR(y−XTω)
在这里
R
T
R
=
W
R^TR=W
RTR=W且
R
T
=
R
R^T=R
RT=R,矩阵
W
W
W为
A
=
[
r
(
1
)
0
⋯
0
0
r
(
2
)
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
r
(
N
)
]
A=\begin{bmatrix} {r^{(1)}}&{0}&{\cdots}&{0} \\ {0}&{r^{(2)}}&{\cdots}&{0} \\ {\vdots}&{\vdots}&{\ddots}&{\vdots} \\ {0}&{0}&{\cdots}&{r^{(N)}} \\ \end{bmatrix}
A=⎣
⎡r(1)0⋮00r(2)⋮0⋯⋯⋱⋯00⋮r(N)⎦
⎤
故
R
(
ω
)
=
1
2
(
y
−
X
T
ω
)
T
W
(
y
−
X
T
ω
)
=
1
2
(
y
T
W
y
−
ω
T
X
W
y
−
y
T
W
X
T
ω
+
ω
T
X
W
X
T
ω
)
\begin{equation*} \begin{split} R(\bm{\omega})&=\frac{1}{2}\left( \bm{y}-X^T\bm{\omega}\right)^TW\left( \bm{y}-X^T\bm{\omega}\right)\\ &=\frac{1}{2}\left( \bm{y}^TW\bm{y}-\bm{\omega}^TXW\bm{y}-\bm{y}^TWX^T\bm{\omega}+\bm{\omega}^TXWX^T\bm{\omega}\right) \end{split} \end{equation*}
R(ω)=21(y−XTω)TW(y−XTω)=21(yTWy−ωTXWy−yTWXTω+ωTXWXTω)
关于
ω
\bm{\omega}
ω求导,得到
∂
R
(
ω
)
∂
ω
=
1
2
(
0
−
X
R
y
−
X
R
T
y
+
X
R
X
T
ω
+
X
R
T
X
T
ω
)
=
−
X
R
(
y
−
X
T
ω
)
\begin{equation*} \begin{split} \frac {\partial R\left( \bm{\omega} \right)}{\partial \bm{\omega}}&=\frac{1}{2}\left( 0 - XR\bm{y} - XR^T\bm{y} + XRX^T\bm{\omega}+XR^TX^T\bm{\omega}\right)\\ &=-XR(\bm{y}-X^T\bm{\omega}) \end{split} \end{equation*}
∂ω∂R(ω)=21(0−XRy−XRTy+XRXTω+XRTXTω)=−XR(y−XTω)
所以最优解为
ω
∗
=
(
X
R
X
T
)
−
1
X
R
y
\bm{\omega}^*=\left( XRX^T\right) ^{-1}XR\bm{y}
ω∗=(XRXT)−1XRy
当
R
=
I
R=I
R=I时,同教材上答案保持一致。
习题2-3
题目
证明在线性回归中,如果样本数目
N
N
N小于特征数量
D
+
1
D+1
D+1,则
X
X
T
XX^T
XXT的秩最大为
N
N
N。
个人解答
X
X
X是一个维度为
(
D
+
1
)
×
N
(D+1)\times N
(D+1)×N的矩阵,由于
N
<
D
+
1
N< D+1
N<D+1,所以
r
a
n
k
(
X
)
≤
N
rank(X)\leq N
rank(X)≤N,又由于
r
a
n
k
(
A
B
)
=
max
(
r
a
n
k
(
A
)
,
r
a
n
k
(
B
)
)
rank(AB)=\max \left (rank(A),rank(B)\right )
rank(AB)=max(rank(A),rank(B))
在这里
r
a
n
k
(
X
)
=
r
a
n
k
(
X
T
)
rank(X)=rank(X^T)
rank(X)=rank(XT),
r
a
n
k
(
X
X
T
)
=
r
a
n
k
(
X
)
≤
N
rank(XX^T)=rank(X)\leq N
rank(XXT)=rank(X)≤N,得证。
习题2-4
题目
在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘法估计。
个人解答
结构风险最小化准则下的最小二乘法估计目标函数为
R
(
ω
)
=
1
2
∣
∣
y
−
X
T
ω
∣
∣
2
+
1
2
λ
∣
∣
ω
∣
∣
2
R(\bm{\omega})=\frac{1}{2} \left | \left | { \bm{y}-X^T\bm{\omega}}\right|\right|^{2}+\frac{1}{2}\lambda \left | \left | { \bm{\omega}}\right|\right|^{2}
R(ω)=21∣
∣∣
∣y−XTω∣
∣∣
∣2+21λ∣∣ω∣∣2
对其求导可得
∂
R
(
ω
)
∂
ω
=
−
X
(
y
−
X
T
ω
)
+
λ
ω
X
R
y
=
(
X
X
T
+
λ
I
)
ω
ω
∗
=
(
X
R
X
T
+
λ
I
)
−
1
X
R
y
\frac {\partial R\left( \bm{\omega} \right)}{\partial \bm{\omega}}=-X\left (\bm{y}-X^T\bm{\omega}\right)+\lambda\bm{\omega} \\ XR\bm{y}=\left (XX^T+\lambda I \right )\bm{\omega} \\ \bm{\omega} ^*=\left (XRX^T+\lambda I \right )^{-1}XR\bm{y}
∂ω∂R(ω)=−X(y−XTω)+λωXRy=(XXT+λI)ωω∗=(XRXT+λI)−1XRy
结果与岭回归下的解保持一致,证毕。
习题2-5
题目
在线性回归中,若假设标签
y
∼
N
(
w
T
x
,
β
)
y \thicksim \mathcal{N} \left ( \bm{w}^T\bm{x},\bm{\beta} \right )
y∼N(wTx,β),并用最大似然估计来优化参数,验证最优参数为公式(2.52)的解。
个人解答
同习题2-2中一致,
y
\bm{y}
y为全体样本标签
y
(
n
)
y^{(n)}
y(n)所组成的向量。对全体样本似然函数,有:
log
p
(
y
∣
X
;
ω
,
β
)
=
∏
n
=
1
N
N
(
y
(
n
)
;
ω
T
x
(
n
)
,
β
)
\log p\left( \bm{y}|X;\bm{\omega},\bm{\beta} \right)=\prod _{n=1}^N \mathcal{N}\left( y^{(n)};\bm{\omega}^T\bm{x^{(n)}},\bm{\beta}\right)
logp(y∣X;ω,β)=n=1∏NN(y(n);ωTx(n),β)
对似然函数取对数,可得
log
p
(
y
∣
X
;
ω
,
β
)
=
∑
n
=
1
N
log
N
(
y
(
n
)
;
ω
T
x
(
n
)
,
β
)
=
−
N
2
log
2
π
β
−
1
2
β
(
y
−
X
T
β
)
T
(
y
−
X
T
β
)
\begin{equation*} \begin{split} \log p\left( \bm{y}|X;\bm{\omega},\bm{\beta} \right)&=\sum_{n=1}^N \log\mathcal{N}\left( y^{(n)};\bm{\omega}^T\bm{x^{(n)}},\bm{\beta}\right)\\ &=-\frac{N}{2}\log 2\pi \bm{\beta} - \frac{1}{2\bm{\beta}}\left(\bm{y}-X^T\bm{\beta}\right)^T\left(\bm{y}-X^T\bm{\beta}\right) \end{split} \end{equation*}
logp(y∣X;ω,β)=n=1∑NlogN(y(n);ωTx(n),β)=−2Nlog2πβ−2β1(y−XTβ)T(y−XTβ)
对对数似然函数取微分
∂
log
p
(
y
∣
X
;
ω
,
β
)
∂
ω
=
−
1
2
β
(
y
−
X
T
ω
)
T
(
y
−
X
T
ω
)
\frac {\partial \log p\left( \bm{y}|X;\bm{\omega},\bm{\beta} \right)}{\partial \bm{\omega}}= - \frac{1}{2\bm{\beta}}\left(\bm{y}-X^T\bm{\omega}\right)^T\left(\bm{y}-X^T\bm{\omega}\right)
∂ω∂logp(y∣X;ω,β)=−2β1(y−XTω)T(y−XTω)
此时,最优解仍然同最小二乘法上类似,在此省略。
证毕。
习题2-6
题目
假设有
N
N
N个样本
x
(
1
)
,
x
(
1
)
,
⋯
,
x
(
n
)
x^{(1)},x^{(1)}, \cdots ,x^{(n)}
x(1),x(1),⋯,x(n)服从正态分布
N
(
μ
,
σ
2
)
\mathcal{N} \left (\mu,\sigma^2 \right )
N(μ,σ2),其中
μ
\mu
μ未知。 1)使用最大似然估计来求解最优参数
μ
M
L
\mu^{ML}
μML;2)若
μ
\mu
μ为随机变量,并服从正态分布
N
(
μ
0
,
σ
0
2
)
\mathcal{N} \left (\mu_0,\sigma_0^2 \right )
N(μ0,σ02),使用最大后验估计来求解最优参数
μ
M
A
P
\mu^{MAP}
μMAP。
个人解答
1)最大似然
似然函数为
p
(
x
(
i
)
)
=
1
2
π
σ
2
e
(
x
(
i
)
−
μ
)
2
2
σ
2
p(x^{(i)})=\frac{1}{\sqrt{2\pi\sigma^2}} e^{ \frac{\left( x^{(i)}-\mu\right)^2}{2\sigma^2} }
p(x(i))=2πσ21e2σ2(x(i)−μ)2
则最优参数有
μ
M
L
=
arg max
μ
log
∏
n
=
1
N
p
(
x
(
n
)
)
=
arg max
μ
∑
n
=
1
N
(
−
1
2
log
2
π
σ
2
−
1
2
σ
2
(
x
(
n
)
−
μ
)
2
)
=
arg max
μ
∑
n
=
1
N
(
−
1
2
σ
2
(
x
(
n
)
−
μ
)
2
)
=
arg max
μ
∑
n
=
1
N
(
x
(
n
)
−
μ
)
2
=
1
N
∑
n
=
1
N
x
(
n
)
\begin{equation*} \begin{split} \mu^{ML}&=\argmax_{\mu} \log \prod_{n=1}^Np(x^{(n)})\\ &=\argmax_{\mu} \sum_{n=1}^N \left( -\frac{1}{2}\log 2\pi \sigma^2 -\frac{1}{2\sigma^2}\left( x^{(n)}-\mu\right)^2\right)\\ &=\argmax_{\mu} \sum_{n=1}^N \left( -\frac{1}{2\sigma^2}\left( x^{(n)}-\mu\right)^2\right)\\ &=\argmax_{\mu} \sum_{n=1}^N \left( x^{(n)}-\mu\right)^2\\ &=\frac{1}{N}\sum_{n=1}^N x^{(n)} \end{split} \end{equation*}
μML=μargmaxlogn=1∏Np(x(n))=μargmaxn=1∑N(−21log2πσ2−2σ21(x(n)−μ)2)=μargmaxn=1∑N(−2σ21(x(n)−μ)2)=μargmaxn=1∑N(x(n)−μ)2=N1n=1∑Nx(n)
2)最大后验
似然函数为
L
=
(
∏
n
=
1
N
1
2
π
σ
2
e
−
(
x
(
i
)
−
μ
)
2
2
σ
2
)
×
1
2
π
σ
0
2
e
−
(
μ
−
μ
0
)
2
2
σ
0
2
L=\left(\prod_{n=1}^N\frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{\left( x^{(i)}-\mu\right)^2}{2\sigma^2} }\right)\times\frac{1}{\sqrt{2\pi\sigma_0^2}} e^{ -\frac{\left( \mu-\mu_0\right)^2}{2\sigma_0^2} }
L=(n=1∏N2πσ21e−2σ2(x(i)−μ)2)×2πσ021e−2σ02(μ−μ0)2
μ
M
A
P
=
arg max
μ
P
(
μ
∣
X
)
=
arg max
μ
P
(
X
∣
μ
)
P
(
μ
)
P
(
X
)
=
arg max
μ
P
(
X
∣
μ
)
P
(
μ
)
=
arg max
μ
L
=
arg max
μ
log
[
(
∏
n
=
1
N
1
2
π
σ
2
e
−
(
x
(
i
)
−
μ
)
2
2
σ
2
)
×
1
2
π
σ
0
2
e
−
(
μ
−
μ
0
)
2
2
σ
0
2
]
=
arg max
μ
[
∑
n
=
1
N
(
−
1
2
log
2
π
σ
2
−
1
2
σ
2
(
x
(
n
)
−
μ
)
2
)
−
1
2
log
2
π
σ
0
2
−
1
2
σ
0
2
(
μ
−
μ
0
)
2
]
=
arg max
μ
[
∑
n
=
1
N
(
−
1
2
σ
2
(
x
(
n
)
−
μ
)
2
)
−
1
2
σ
0
2
(
μ
−
μ
0
)
2
]
\begin{equation*} \begin{split} \mu^{MAP}&=\argmax_{\mu} P\left(\mu|X\right)\\ &=\argmax_{\mu} \frac{P\left(X|\mu \right) P(\mu)}{P(X)}\\ &=\argmax_{\mu} P\left(X|\mu \right) P(\mu)\\ &=\argmax_{\mu} L\\ &=\argmax_{\mu}\log \left[\left(\prod_{n=1}^N\frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{\left( x^{(i)}-\mu\right)^2}{2\sigma^2} }\right)\times\frac{1}{\sqrt{2\pi\sigma_0^2}} e^{- \frac{\left( \mu-\mu_0\right)^2}{2\sigma_0^2} }\right]\\ &=\argmax_{\mu}\left[\sum_{n=1}^N\left( -\frac{1}{2}\log 2\pi \sigma^2 -\frac{1}{2\sigma^2}\left( x^{(n)}-\mu\right)^2\right)-\frac{1}{2}\log 2\pi \sigma_0^2-\frac{1}{2\sigma_0^2}\left(\mu-\mu_0\right)^2\right]\\ &=\argmax_{\mu}\left[\sum_{n=1}^N\left( -\frac{1}{2\sigma^2}\left( x^{(n)}-\mu\right)^2\right)-\frac{1}{2\sigma_0^2}\left(\mu-\mu_0\right)^2\right]\\ \end{split} \end{equation*}
μMAP=μargmaxP(μ∣X)=μargmaxP(X)P(X∣μ)P(μ)=μargmaxP(X∣μ)P(μ)=μargmaxL=μargmaxlog[(n=1∏N2πσ21e−2σ2(x(i)−μ)2)×2πσ021e−2σ02(μ−μ0)2]=μargmax[n=1∑N(−21log2πσ2−2σ21(x(n)−μ)2)−21log2πσ02−2σ021(μ−μ0)2]=μargmax[n=1∑N(−2σ21(x(n)−μ)2)−2σ021(μ−μ0)2]
则最优参数有
∂
∂
μ
[
∑
n
=
1
N
(
−
1
2
σ
2
(
x
(
n
)
−
μ
)
2
)
−
1
2
σ
0
2
(
μ
−
μ
0
)
2
]
=
0
∑
n
=
1
N
(
1
σ
2
(
x
(
n
)
−
μ
M
A
P
)
)
−
1
σ
0
2
(
μ
M
A
P
−
μ
0
)
=
0
(
N
σ
2
+
1
σ
0
2
)
μ
M
A
P
=
μ
0
σ
0
2
+
∑
n
=
1
N
x
(
n
)
σ
2
μ
M
A
P
=
μ
0
σ
0
2
+
∑
n
=
1
N
x
(
n
)
σ
2
N
σ
2
+
1
σ
0
2
\begin{split} \frac{\partial}{\partial \mu}\left[ \sum_{n=1}^N\left( -\frac{1}{2\sigma^2}\left( x^{(n)}-\mu\right)^2\right)-\frac{1}{2\sigma_0^2}\left(\mu-\mu_0\right)^2\right]&=0\\ \sum_{n=1}^N\left( \frac{1}{\sigma^2}\left( x^{(n)}-\mu^{MAP}\right)\right)-\frac{1}{\sigma_0^2}\left(\mu^{MAP}-\mu_0\right)&=0\\ \left( \frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\right)\mu^{MAP}&=\frac{\mu_0}{\sigma_0^2}+ \sum_{n=1}^N\frac{x^{(n)}}{\sigma^2}\\ \mu^{MAP}&=\frac{\frac{\mu_0}{\sigma_0^2}+ \sum_{n=1}^N\frac{x^{(n)}}{\sigma^2}}{ \frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}} \end{split}
∂μ∂[n=1∑N(−2σ21(x(n)−μ)2)−2σ021(μ−μ0)2]n=1∑N(σ21(x(n)−μMAP))−σ021(μMAP−μ0)(σ2N+σ021)μMAPμMAP=0=0=σ02μ0+n=1∑Nσ2x(n)=σ2N+σ021σ02μ0+∑n=1Nσ2x(n)
习题2-7
题目
习题2-6中,证明当
N
→
∞
N\to \infty
N→∞时,最大后验估计趋于最大似然估计。
个人解答
lim
n
→
∞
μ
M
A
P
=
lim
n
→
∞
μ
σ
0
2
+
∑
n
=
1
N
x
(
n
)
σ
2
N
σ
2
+
1
σ
0
2
=
lim
n
→
∞
[
1
N
∑
n
=
1
N
x
(
n
)
+
μ
σ
0
2
N
σ
2
+
1
σ
0
2
]
\begin{split} \lim_{n\to\infty}\mu^{MAP}&=\lim_{n\to\infty}\frac{\frac{\mu}{\sigma_0^2}+ \sum_{n=1}^N\frac{x^{(n)}}{\sigma^2}}{ \frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}}\\ &=\lim_{n\to\infty}\left[\frac{1}{N}\sum_{n=1}^Nx^{(n)}+\frac{\frac{\mu}{\sigma_0^2}}{ \frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}}\right] \end{split}
n→∞limμMAP=n→∞limσ2N+σ021σ02μ+∑n=1Nσ2x(n)=n→∞lim[N1n=1∑Nx(n)+σ2N+σ021σ02μ]
当
N
→
∞
N\to \infty
N→∞时,第二项趋于0,得证。
习题2-8
题目
验证
f
∗
(
x
)
=
E
y
∼
p
r
(
y
∣
x
)
[
y
]
f^*\left(x\right)=\mathbb{E}_{y\thicksim p_r\left(y|x\right)}\left[y\right]
f∗(x)=Ey∼pr(y∣x)[y]。
个人解答
损失函数
R
(
f
)
=
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
(
y
−
f
(
x
)
)
2
]
R(f)=\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[\left(y-f\left(x\right)\right)^2\right]
R(f)=E(x,y)∼pr(x,y)[(y−f(x))2]
参考2-4,不难想到直接对
R
(
f
)
R(f)
R(f)关于
f
f
f进行求导,就能够得到
∂
∂
f
R
(
f
)
=
−
2
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
f
′
(
x
)
(
y
−
f
(
x
)
)
]
\frac{\partial}{\partial f}R(f)=-2\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[f'(x)\left(y-f\left(x\right)\right)\right]
∂f∂R(f)=−2E(x,y)∼pr(x,y)[f′(x)(y−f(x))]
想要让
∂
∂
f
R
(
f
)
=
0
\frac{\partial}{\partial f}R(f)=0
∂f∂R(f)=0,那么一定有
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
y
−
f
(
x
)
]
=
0
\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[y-f\left(x\right)\right]=0
E(x,y)∼pr(x,y)[y−f(x)]=0。在这里需要用到一个条件期望的引理,即
E
[
g
(
x
)
∣
x
]
=
g
(
x
)
\mathbb{E}\left[g(x)|x\right]=g(x)
E[g(x)∣x]=g(x)。
下面我们先证明一下这个引理,假定
x
x
x为一取值,而
X
X
X为一随机变量,则
E
[
g
(
X
)
∣
x
]
=
∑
g
(
x
)
×
P
r
(
g
(
X
)
=
g
(
x
)
∣
X
=
x
)
\mathbb{E}\left[g(X)|x\right]=\sum g(x) \times Pr\left( g(X)=g(x)|X=x \right)
E[g(X)∣x]=∑g(x)×Pr(g(X)=g(x)∣X=x)
很明显,条件概率
P
r
(
g
(
X
)
=
g
(
x
)
∣
X
=
x
)
Pr\left( g(X)=g(x)|X=x \right)
Pr(g(X)=g(x)∣X=x)当且仅当
X
=
x
X=x
X=x时取1,其余情况均为0,所以
E
[
g
(
X
)
∣
x
]
=
g
(
x
)
\mathbb{E}\left[g(X)|x\right]=g(x)
E[g(X)∣x]=g(x)
对全体
x
x
x求期望,则可得到
E
[
g
(
X
)
∣
X
]
=
g
(
X
)
\mathbb{E}\left[g(X)|X\right]=g(X)
E[g(X)∣X]=g(X)
在这里,所有的
X
X
X均表示随机变量,考虑到在本证明中
x
x
x本身便代表随机变量,所以特做一引申。希望读者此处不会将
X
X
X与
x
x
x混淆,仅需记住当
x
x
x为随机变量时
E
[
g
(
x
)
∣
x
]
=
g
(
x
)
\mathbb{E}\left[g(x)|x\right]=g(x)
E[g(x)∣x]=g(x)即可。
基于以上推导,则可将公式进行合理变换
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
y
−
f
(
x
)
]
=
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
(
y
−
f
(
x
)
)
∣
x
]
]
=
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
y
∣
x
]
−
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
f
(
x
)
∣
x
]
]
\begin{split} \mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[y-f\left(x\right)\right]&=\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[ \mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[\left(y-f\left(x\right)\right)|x\right]\right]\\ &=\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[ \mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[y|x\right]-\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[f\left(x\right)|x\right]\right] \end{split}
E(x,y)∼pr(x,y)[y−f(x)]=E(x,y)∼pr(x,y)[E(x,y)∼pr(x,y)[(y−f(x))∣x]]=E(x,y)∼pr(x,y)[E(x,y)∼pr(x,y)[y∣x]−E(x,y)∼pr(x,y)[f(x)∣x]]
同上,此时可得
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
f
(
x
)
∣
x
]
=
f
∗
(
x
)
=
E
(
x
,
y
)
∼
p
r
(
x
,
y
)
[
y
∣
x
]
=
E
y
∼
p
r
(
y
∣
x
)
[
y
]
\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[f\left(x\right)|x\right]=f^*(x)=\mathbb{E}_{\left(x,y\right)\thicksim p_r\left(x,y\right)}\left[y|x\right]=\mathbb{E}_{y\thicksim p_r\left(y|x\right)}\left[y\right]
E(x,y)∼pr(x,y)[f(x)∣x]=f∗(x)=E(x,y)∼pr(x,y)[y∣x]=Ey∼pr(y∣x)[y]
得证。
此处除了直接求导外,还可通过不等式法进行求解,个人认为不等式法比较完备,因为其实题目中没有说
f
(
x
)
f(x)
f(x)可微。但这里使用这种方法的前提是我们是在一个深度学习的模型上来求解的,而这个模型能够用梯度下降法之类的话,本身应该是可微的吧。(当然这部分像是后日谈,本做法仍然不甚完整,建议参考不等式法)
习题2-9
题目
试分析什么因素会导致模型出现图2.6所示的高偏差和高方差情况。
个人解答
从实验结果来看,这种情况模型几乎不起作用。出问题的点无外乎来自两方面:模型和数据。可能是如下原因导致的:
1. 从模型来看,模型不收敛,模型近似于瞎猜;
2. 从过程来看,训练数据与测试数据不一致,譬如一人脸识别模型训练时利用人眼数据学习,但是最后给你的测试数据却是鼻子的数据,像是这种大差异也可能会导致这个问题;
3. 从关系来看,数据不合适,线性模型输入非线性数据,基本等于瞎猜。
习题2-10
题目
验证
E
D
[
(
f
D
(
x
)
−
f
∗
(
x
)
)
2
]
=
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
2
+
E
D
[
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
)
2
]
\mathbb{E}_D\left[ \left( f_D(x)-f^*\left(x\right)\right )^2\right]=\left(\mathbb{E}_D\left[f_D(x)\right]-f^*(x)\right)^2+\mathbb{E}_D\left[ \left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right]\right )^2\right]
ED[(fD(x)−f∗(x))2]=(ED[fD(x)]−f∗(x))2+ED[(fD(x)−ED[fD(x)])2]。
个人解答
E
D
[
(
f
D
(
x
)
−
f
∗
(
x
)
)
2
]
=
E
D
[
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
+
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
2
]
=
E
D
[
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
)
2
+
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
2
+
2
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
)
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
]
=
E
D
[
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
)
2
]
+
E
D
[
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
2
+
2
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
)
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
]
\begin{split} \mathbb{E}_D\left[ \left( f_D(x)-f^*\left(x\right)\right )^2\right]&=\mathbb{E}_D\left[ \left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right]+\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right )^2\right]\\ &=\mathbb{E}_D\left[ \left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right]\right)^2+\left(\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right )^2+2\left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right] \right)\left(\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right)\right]\\ &=\mathbb{E}_D\left[ \left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right]\right)^2\right]+\mathbb{E}_D\left[\left(\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right )^2+2\left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right] \right)\left(\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right)\right]\\ \end{split}
ED[(fD(x)−f∗(x))2]=ED[(fD(x)−ED[fD(x)]+ED[fD(x)]−f∗(x))2]=ED[(fD(x)−ED[fD(x)])2+(ED[fD(x)]−f∗(x))2+2(fD(x)−ED[fD(x)])(ED[fD(x)]−f∗(x))]=ED[(fD(x)−ED[fD(x)])2]+ED[(ED[fD(x)]−f∗(x))2+2(fD(x)−ED[fD(x)])(ED[fD(x)]−f∗(x))]
因为
f
∗
(
x
)
f^*(x)
f∗(x)是最优模型,最优模型是与数据无关的,所以
E
D
[
f
∗
(
x
)
]
=
f
∗
(
x
)
\mathbb{E}_D\left[f^*(x)\right]=f^*(x)
ED[f∗(x)]=f∗(x)。无论数据
D
D
D取什么值,在这里是无关的。同理,有
E
D
[
E
D
[
f
D
(
x
)
]
]
=
E
D
[
f
D
(
x
)
]
\mathbb{E}_D\left[\mathbb{E}_D\left[f_D(x)\right]\right]=\mathbb{E}_D\left[f_D(x)\right]
ED[ED[fD(x)]]=ED[fD(x)]。
E
D
[
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
2
+
2
(
f
D
(
x
)
−
E
D
[
f
D
(
x
)
]
)
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
]
=
E
D
[
E
D
2
[
f
D
(
x
)
]
+
f
∗
(
x
)
2
−
2
E
D
[
f
D
(
x
)
]
f
∗
(
x
)
+
2
f
D
(
x
)
E
D
[
f
D
(
x
)
]
−
2
f
D
(
x
)
f
∗
(
x
)
−
2
E
D
2
[
f
D
(
x
)
]
+
2
E
D
[
f
D
(
x
)
]
f
∗
(
x
)
]
=
E
D
[
f
∗
(
x
)
2
+
2
f
D
(
x
)
E
D
[
f
D
(
x
)
]
−
2
f
D
(
x
)
f
∗
(
x
)
−
E
D
2
[
f
D
(
x
)
]
]
=
f
∗
(
x
)
2
+
2
E
D
[
f
D
(
x
)
E
D
[
f
D
(
x
)
]
]
−
2
f
∗
(
x
)
E
D
[
f
D
(
x
)
]
−
E
D
2
[
f
D
(
x
)
]
=
f
∗
(
x
)
2
−
2
f
∗
(
x
)
E
D
[
f
D
(
x
)
]
+
E
D
2
[
f
D
(
x
)
]
=
(
E
D
[
f
D
(
x
)
]
−
f
∗
(
x
)
)
2
\begin{split} & \mathbb{E}_D\left[\left(\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right )^2+2\left( f_D(x)-\mathbb{E}_D\left[f_D(x)\right] \right)\left(\mathbb{E}_D\left[f_D(x)\right]-f^*\left(x\right)\right)\right]\\ &= \mathbb{E}_D\left[\mathbb{E}_D^2\left[f_D(x)\right]+f^*\left(x\right)^2-2\mathbb{E}_D\left[f_D(x)\right]f^*\left(x\right)+2f_D(x)\mathbb{E}_D\left[f_D(x)\right] -2f_D(x)f^*(x) - 2\mathbb{E}_D^2\left[f_D(x)\right]+2\mathbb{E}_D\left[f_D(x)\right]f^*(x)\right]\\ &=\mathbb{E}_D\left[f^*\left(x\right)^2+2f_D(x)\mathbb{E}_D\left[f_D(x)\right] -2f_D(x)f^*(x) - \mathbb{E}_D^2\left[f_D(x)\right]\right]\\ &=f^*\left(x\right)^2+2\mathbb{E}_D\left[f_D(x)\mathbb{E}_D\left[f_D(x)\right]\right]-2f^*(x)\mathbb{E}_D\left[f_D(x)\right]-\mathbb{E}_D^2\left[f_D(x)\right]\\ &=f^*\left(x\right)^2-2f^*(x)\mathbb{E}_D\left[f_D(x)\right]+\mathbb{E}_D^2\left[f_D(x)\right]\\ &=\left(\mathbb{E}_D\left[f_D(x)\right]-f^*(x)\right)^2 \end{split}
ED[(ED[fD(x)]−f∗(x))2+2(fD(x)−ED[fD(x)])(ED[fD(x)]−f∗(x))]=ED[ED2[fD(x)]+f∗(x)2−2ED[fD(x)]f∗(x)+2fD(x)ED[fD(x)]−2fD(x)f∗(x)−2ED2[fD(x)]+2ED[fD(x)]f∗(x)]=ED[f∗(x)2+2fD(x)ED[fD(x)]−2fD(x)f∗(x)−ED2[fD(x)]]=f∗(x)2+2ED[fD(x)ED[fD(x)]]−2f∗(x)ED[fD(x)]−ED2[fD(x)]=f∗(x)2−2f∗(x)ED[fD(x)]+ED2[fD(x)]=(ED[fD(x)]−f∗(x))2
得证。
习题2-11
题目
分别用一元、二元和三元特征的词袋模型表示文本“我打了张三”和“张三打了我”,并分析不同模型的优缺点。
个人解答
词袋模型是把单词分为一个一个的特征,在这里可以理解为字,也可以理解为词。但是考虑到中文当中存在“了”这样的词,所以将其简化,把“打了”视为同一个词。在英文当中也有类似的处理,譬如会忽略“a”、“the”这样的词。
一元特征:“我”、“打了”、“张三”。
二元特征:“我打了”、“打了我”、“打了张三”、“张三打了”、“我张三”、“张三我”。
三元特征:“张三打了我”、“我打了张三”、“我张三打了”、“张三我打了”、“打了我张三”、“打了张三我”。
在这里我和这种做法有点不同,我觉得二元、三元特征中应该不包低元特征才对,在这里元我理解为元组。所以对应下来文本一和文本二应该表述为:
一元:
I
1
=
[
1
,
1
,
1
]
I
2
=
[
1
,
1
,
1
]
I_1=[1,1,1]\\ I_2=[1,1,1]
I1=[1,1,1]I2=[1,1,1]
二元:
I
1
=
[
1
,
0
,
1
,
0
,
0
,
0
]
I
2
=
[
0
,
1
,
0
,
1
,
0
,
0
]
I_1=[1,0,1,0,0,0]\\ I_2=[0,1,0,1,0,0]
I1=[1,0,1,0,0,0]I2=[0,1,0,1,0,0]
三元:
I
1
=
[
0
,
1
,
0
,
0
,
0
,
0
]
I
2
=
[
1
,
0
,
0
,
0
,
0
,
0
]
I_1=[0,1,0,0,0,0]\\ I_2=[1,0,0,0,0,0]
I1=[0,1,0,0,0,0]I2=[1,0,0,0,0,0]
一元模型只能表征元素,看是否出现过,只要都出现过,那么他们的词向量就相同。但是一元模型无法表示语序,判断的精准度会较低。二元和三元则可以表示语序,特别是三元能表征前后元素的关系。
但是当特征元数
n
n
n增长时,计算压力和参数空间会迅速增长。
n
n
n越大,数据也会越稀疏。
习题2-12
题目
对于一个三分类问题,数据集的真实标签和模型的预测标签如下。
真实标签 | 1 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 3 |
---|---|---|---|---|---|---|---|---|---|
预测标签 | 1 | 2 | 2 | 2 | 3 | 3 | 1 | 1 | 2 |
分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。
解答
按照这种做法即可,就不重复造轮子了。