第二章 机器学习概述
习题 2-1 分析为什么平方损失函数不适用于分类问题。
解:
平方损失函数为:
L
(
y
,
f
(
x
;
θ
)
)
=
1
2
(
y
−
f
(
x
;
θ
)
)
2
(2.14)
\mathcal{L}\left(y,f(\boldsymbol{x};\theta)\right)=\frac{1}{2}\left(y-f(\boldsymbol{x};\theta)\right)^2 \tag{2.14}
L(y,f(x;θ))=21(y−f(x;θ))2(2.14)
对于分类问题,例如如果一个分类问题有标签
[
1
,
2
,
3
]
[1, 2, 3]
[1,2,3],分别代表了
[
r
e
d
,
g
r
e
e
n
,
y
e
l
l
o
w
]
[red, green, yellow]
[red,green,yellow],假如真实分类是 1, 而被分类到 2 和 3 错误程度应该是一样的, 但是平方损失函数的损失却不相同。
习题 2-2 在线性回归中,如果我们给每个样本 ( x ( n ) , y ( n ) ) (\boldsymbol{x}^{(n)}, y^{(n)}) (x(n),y(n)) 赋予一个权重 r ( n ) r^{(n)} r(n),经验风险函数为
R ( w ) = 1 2 ∑ n = 1 N r ( n ) ( y ( n ) − w T x ( n ) ) 2 (2.91) \mathcal{R}(\boldsymbol{w}) = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}(y^{(n)}-\boldsymbol{w}^\mathrm{T}\boldsymbol{x}^{(n)})^2 \tag{2.91} R(w)=21n=1∑Nr(n)(y(n)−wTx(n))2(2.91)
计算其最优参数 w ∗ \boldsymbol{w}^* w∗,并分析权重 r ( n ) r^{(n)} r(n) 的作用。
解:
∂ ∂ w R ( w ) = 1 2 ∑ n = 1 N r ( n ) ∂ ∥ y − X T w ∥ 2 ∂ w = 0 w ∗ = ∑ n = 1 N r ( n ) ( X X T ) − 1 X y \begin{aligned} \frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w}) & = \frac{1}{2}\sum_{n=1}^{N}r^{(n)}\frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^\mathrm{T}\boldsymbol{w}\right\|^2}{\partial\boldsymbol{w}} = 0 \\ \boldsymbol{w}^{*} & = \sum_{n=1}^{N} r^{(n)}\left(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \end{aligned} ∂w∂R(w)w∗=21n=1∑Nr(n)∂w∂∥∥∥y−XTw∥∥∥2=0=n=1∑Nr(n)(XXT)−1Xy
习题 2-3 证明在线性回归中,如果样本数量 N N N 小于特征数量 D + 1 D+1 D+1,则 X X T \boldsymbol{X}\boldsymbol{X}^{\mathrm{T}} XXT 的秩最大为 N N N。
解:
矩阵 X = [ x ( 1 ) , x ( 2 ) , . . . , x ( n ) ] \boldsymbol{X}=[\boldsymbol{x}^{(1)},\boldsymbol{x}^{(2)},...,\boldsymbol{x}^{(n)}] X=[x(1),x(2),...,x(n)],样本数 N N N 比特征数量 D + 1 D+1 D+1 还小,故 X \boldsymbol{X} X 的秩肯定不会超过 N N N,而 r a n k ( X X T ) = r a n k ( X ) rank(\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}})=rank(\boldsymbol{X}) rank(XXT)=rank(X) 故其秩最大也只能是 N N N。
这相当于线性方程组的未知数个数大于方程个数,是不存在唯一的非零解的。
习题 2-4 在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘法估计,见公式(2.44)。
解:
∂ R ( w ) ∂ w = 1 2 ∂ ∥ y − X T w ∥ 2 + λ ∥ w ∥ 2 ∂ w = − X ( y − X T w ) + λ w \begin{aligned} \frac{\partial \mathcal{R}(\boldsymbol{w})}{\partial \boldsymbol{w}} &=\frac{1}{2} \frac{\partial\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^{2}+\lambda\|\boldsymbol{w}\|^{2}}{\partial \boldsymbol{w}} \\ &=-\boldsymbol{X}\left(\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right)+\lambda \boldsymbol{w} \end{aligned} ∂w∂R(w)=21∂w∂∥∥∥y−XTw∥∥∥2+λ∥w∥2=−X(y−XTw)+λw
令 ∂ ∂ w R ( w ) = 0 \frac{\partial}{\partial{\boldsymbol{w}}}\mathcal{R}(\boldsymbol{w})=0 ∂w∂R(w)=0 可得:
− X Y + X X T w + λ w = 0 ( X X T + λ I ) w = X Y -\boldsymbol{X} \boldsymbol{Y}+\boldsymbol{X} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}+\lambda \boldsymbol{w}=0\\ \left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right) \boldsymbol{w}=\boldsymbol{X} \boldsymbol{Y} −XY+XXTw+λw=0(XXT+λI)w=XY
即: w ∗ = ( X X T + λ I ) − 1 X y \boldsymbol{w}^{*}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}+\lambda \boldsymbol{I}\right)^{-1} \boldsymbol{X} \boldsymbol{y} w∗=(XXT+λI)−1Xy。
习题 2-5 在线性回归中,若假设标签 y ∼ N ( w T x , β ) y\sim\mathcal{N}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x},\beta) y∼N(wTx,β),并用最大似然估计来优化参数,验证最优参数为公式(2.52)的解。
解:
log
p
(
y
∣
X
;
w
,
β
)
=
∑
n
=
1
N
log
N
(
y
(
n
)
;
w
T
x
(
n
)
,
β
)
=
∑
n
=
1
N
log
(
1
2
π
β
exp
(
−
(
y
(
n
)
−
w
T
x
)
2
2
β
)
)
=
∑
n
=
1
N
log
1
2
π
β
+
∑
n
=
1
N
log
(
exp
(
−
(
y
(
n
)
−
w
T
x
)
2
2
β
)
)
\begin{aligned} \log p(\boldsymbol{y}|\boldsymbol{X} ; \boldsymbol{w}, \beta) & = \sum_{n=1}^{N} \log \mathcal{N}\left(y^{(n)} ; \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}^{(n)}, \beta\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi \beta}} \exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi \beta}}+\sum_{n=1}^{N} \log \left(\exp \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)\right) \end{aligned}
logp(y∣X;w,β)=n=1∑NlogN(y(n);wTx(n),β)=n=1∑Nlog(2πβ1exp(−2β(y(n)−wTx)2))=n=1∑Nlog2πβ1+n=1∑Nlog(exp(−2β(y(n)−wTx)2))
对于等式的第一部分只是一个常数,其对
w
\boldsymbol{w}
w 求导为零,所以只看后面的部分。
后面部分可以化简为
∑
n
=
1
N
(
−
(
y
(
n
)
−
w
T
x
)
2
2
β
)
\sum_{n=1}^{N} \left(-\frac{\left(y^{(n)}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}\right)^{2}}{2 \beta}\right)
n=1∑N(−2β(y(n)−wTx)2)
注:在计算机或者说人工智能中,代码上的 log \log log 通常都是以 e e e 为底的,即代表 ln \ln ln。
所以,把分母的
2
β
2\beta
2β 提出去,最大似然函数对
w
\boldsymbol{w}
w 的求导函数又变成了
−
1
2
β
∥
y
−
X
T
w
∥
2
-\frac{1}{2\beta}\left\|\boldsymbol{y}-\boldsymbol{X}^{\mathrm{T}} \boldsymbol{w}\right\|^2
−2β1∥∥∥y−XTw∥∥∥2,参考最小二乘法可以知道,最优参数为
w
M
L
=
(
X
X
T
)
−
1
X
y
(2.52)
\boldsymbol{w}^{ML}=\left(\boldsymbol{X}\boldsymbol{X}^{\mathrm{T}}\right)^{-1} \boldsymbol{X} \boldsymbol{y} \tag{2.52}
wML=(XXT)−1Xy(2.52)
习题 2-6 假设有 N N N 个样本 x ( 1 ) , x ( 2 ) , . . . , x ( N ) x^{(1)},x^{(2)},...,x^{(N)} x(1),x(2),...,x(N) 服从正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu,\sigma^2) N(μ,σ2),其中 μ \mu μ 未知。1)使用最大似然估计来求解最优参数 μ M L \mu^{ML} μML;2)若参数 μ \mu μ 为随机变量,并服从正态分布 N ( μ 0 , σ 0 2 ) \mathcal{N}(\mu_0,\sigma_0^2) N(μ0,σ02),使用最大后验估计来求解最优参数 μ M A P \mu^{MAP} μMAP。
解:(1)问:
与习题 2-5 基本一样,就是变量表示变了
log
p
(
x
∣
μ
;
σ
2
)
=
∑
n
=
1
N
log
N
(
x
(
n
)
;
μ
,
σ
2
)
=
∑
n
=
1
N
log
(
1
2
π
σ
exp
(
−
(
x
(
n
)
−
μ
)
2
2
σ
2
)
)
=
∑
n
=
1
N
log
1
2
π
σ
+
∑
n
=
1
N
(
−
(
x
(
n
)
−
μ
)
2
2
σ
2
)
\begin{aligned} \log p(\boldsymbol{x}|\mu ; \sigma^2) & = \sum_{n=1}^{N} \log \mathcal{N}\left(x^{(n)} ; \mu, \sigma^2\right) \\ & = \sum_{n=1}^{N} \log \left(\frac{1}{\sqrt{2 \pi}\sigma} \exp \left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right)\right) \\ & = \sum_{n=1}^{N} \log \frac{1}{\sqrt{2 \pi}\sigma}+\sum_{n=1}^{N}\left(-\frac{\left(x^{(n)}-\mu\right)^{2}}{2 \sigma^2}\right) \end{aligned}
logp(x∣μ;σ2)=n=1∑NlogN(x(n);μ,σ2)=n=1∑Nlog(2πσ1exp(−2σ2(x(n)−μ)2))=n=1∑Nlog2πσ1+n=1∑N(−2σ2(x(n)−μ)2)
等式右边的第二项对
μ
\mu
μ 求导,并令其等于零,得
μ
M
L
=
x
\mu^{ML}=\boldsymbol{x}
μML=x
(2)问:
由贝叶斯公式得参数
μ
\mu
μ 的后验分布为
p
(
μ
∣
x
;
v
,
σ
)
∝
p
(
x
∣
μ
;
σ
)
p
(
μ
;
v
)
p(\mu|\boldsymbol{x};v,\sigma)\propto p(\boldsymbol{x}|\mu;\sigma) p(\mu;v)
p(μ∣x;v,σ)∝p(x∣μ;σ)p(μ;v),两边取对数
log
p
(
μ
∣
x
;
v
,
σ
)
∝
log
p
(
x
∣
μ
,
σ
)
+
log
p
(
μ
;
v
)
∝
−
1
2
σ
2
∥
x
−
μ
∥
2
−
1
2
v
2
μ
2
\begin{aligned} \log p(\mu|\boldsymbol{x};v,\sigma) & \propto \log p(\boldsymbol{x}|\mu,\sigma)+\log p(\mu;v) \\ & \propto-\frac{1}{2 \sigma^{2}}\left\|\boldsymbol{x}-\mu\right\|^{2}-\frac{1}{2 v^{2}} \mu^2 \end{aligned}
logp(μ∣x;v,σ)∝logp(x∣μ,σ)+logp(μ;v)∝−2σ21∥x−μ∥2−2v21μ2
对
μ
\mu
μ 进行求导可以解得
μ
M
A
P
=
v
2
v
2
+
σ
2
x
\mu^{MAP}=\frac{v^2}{v^2+\sigma^2}\boldsymbol{x}
μMAP=v2+σ2v2x。
习题 2-7 在习题 2-6 中,证明当 N → ∞ N\rightarrow\infty N→∞ 时,最大后验估计趋向于最大似然估计。
解:
习题 2-9 试分析什么因素会导致模型出现图 2.6 所示的高偏差高方差情况。
解:
一般来说,高偏差是因为模型欠拟合了,高方差是因为模型过拟合了,如果两个都偏高,那么模型可能出现了问题,或者不能够用来解决给定的问题。
习题 2-11 分别用一元、二元和三元特征的词袋模型表示文本「我打了张三」和「张三打了我」,并分析不同模型的优缺点。
解:
首先这句话可以分为三个词:我 | 打了 | 张三,加上文本的开始 $ 和结束 #。
一元特征:$ | 我 | 打了 | 张三 | #
二元特征:$ | $我 | 我打了 | 打了张三 | 张三#
三元特征:$ | $我打了 | 我打了张三 | 打了张三#
习题 2-12 对于一个三分类问题,数据集的真实标签和模型的预测标签分别为: [ 1 , 1 , 2 , 2 , 2 , 3 , 3 , 3 , 3 ] [1,1,2,2,2,3,3,3,3] [1,1,2,2,2,3,3,3,3] 和 [ 1 , 2 , 2 , 2 , 3 , 3 , 3 , 1 , 2 ] [1,2,2,2,3,3,3,1,2] [1,2,2,2,3,3,3,1,2],分别计算模型的精确率、召回率、 F 1 \mathcal{F1} F1 值以及它们的宏平均和微平均。
解:
P
=
[
1
2
,
1
2
,
2
3
]
,
R
=
[
1
2
,
2
3
,
1
2
]
,
F
1
=
[
1
2
,
4
7
,
4
7
]
P
m
a
c
r
o
=
5
9
,
R
m
a
c
r
o
=
5
9
,
F
1
m
a
c
r
o
=
5
9
\boldsymbol{\mathcal{P}}=[\frac{1}{2},\frac{1}{2},\frac{2}{3}] , \boldsymbol{\mathcal{R}}=[\frac{1}{2},\frac{2}{3},\frac{1}{2}] , \boldsymbol{\mathcal{F1}}=[\frac{1}{2},\frac{4}{7},\frac{4}{7}] \\ \, \\ \, \mathcal{P_{macro}}= \frac{5}{9}, \mathcal{R_{macro}}= \frac{5}{9}, \mathcal{F1_{macro}}= \frac{5}{9}
P=[21,21,32],R=[21,32,21],F1=[21,74,74]Pmacro=95,Rmacro=95,F1macro=95