第二章习题
参考资料
若有错误,请大家指正。
-
习题 2-1 分析为什么平方损失函数不适用于分类问题.
分类问题中的标签,是没有连续的概念的。每个标签之间的距离也是没有实际意义的,所以预测值 和 标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。 假设分类问题的类别是1,2,3 那么对于一个真实类别为2的样本X,模型的分类结果是 1 或 3,平方损失函数得到的结果都一样,显然不适合。
解 : y n 维 数 为 1 ∗ 1 ; w n 和 w n 维 数 为 n ∗ 1 解:y_n维数为1*1; w_n和w_n维数为n*1~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 解:yn维数为1∗1;wn和wn维数为n∗1
显 然 : w T x n = x n T w 显然:w^Tx_n=x_n^Tw 显然:wTxn=xnTw
故 : R ( w ) = 1 2 ∑ n = 1 N r n ( y n − x n T w ) 2 故:R(w)=\frac{1}{2}\sum_{n=1}^{N}{r_n(y_n-x_n^Tw)^2} 故:R(w)=21n=1∑Nrn(yn−xnTw)2
对 R ( w ) 求 导 并 让 其 为 0 , 得 : R ( w ) = ∑ n = 1 N − r n x n ( y n − x n T w ) = 0 对R(w)求导并让其为0,得:R(w)=\sum_{n=1}^{N}{-r_nx_n(y_n-x_n^Tw)}=0 对R(w)求导并让其为0,得:R(w)=n=1∑N−rnxn(yn−xnTw)=0
即 : w ∗ = ( ∑ n = 1 N ( r n x n x n T ) − 1 ) ( ∑ n = 1 N r n x n y n ) 即: w^*=(\sum_{n=1}^{N}{(r_nx_nx_n^T)^{-1}}) (\sum_{n=1}^{N}{r_nx_ny_n}) 即:w∗=(n=1∑N(rnxnxnT)−1)(n=1∑Nrnxnyn)
r(n): 为每个样本都分配了权重,相当于对每个样本都设置了不同的学习率,即,理解成对每个样本重视程度不同。
答 : 已 知 : R ( w ) = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 + 1 2 λ ∣ ∣ w ∣ ∣ 2 要 求 : w ∗ = ( X X T + λ I ) − 1 X y 解 : R ( w ) = 1 2 ( y − X T w ) T ( y − X T w ) + 1 2 λ w T w 令 ∂ R ( w ) ∂ w = 0 , 得 : ∂ R ( w ) ∂ w = − X ( y − X T w ) + λ w = 0 解 得 : w ∗ = ( X X T + λ I ) − 1 X y 得 证 答:\quad 已知:~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda||w||^2\\ 要求:w^*=(XX^T+\lambda I)^{-1}Xy\\ 解:R(w)=\frac{1}{2}(y-X^Tw)^T(y-X^Tw)+\frac{1}{2}\lambda w^Tw\\ 令\frac{\partial R(w)}{\partial w}=0,\quad 得:\\ \frac{\partial R(w)}{\partial w}=-X(y-X^Tw)+\lambda w=0\quad 解得:\\ w^*=(XX^T+\lambda I)^{-1}Xy\\ 得证 答:已知: R(w)=21∣∣y−XTw∣∣2+21λ∣∣w∣∣2要求:w∗=(XXT+λI)−1Xy解:R(w)=21(y−XTw)T(y−XTw)+21λwTw令∂w∂R(w)=0,得:∂w∂R(w)=−X(y−XTw)+λw=0解得:w∗=(XXT+λI)−1Xy得证
答:
已
知
:
log
p
(
y
∣
X
;
w
,
δ
)
=
∑
n
=
1
N
log
N
(
y
n
;
w
T
x
n
,
δ
2
)
注
:
N
(
y
n
;
w
T
x
n
,
δ
2
)
=
1
2
π
δ
e
x
p
(
−
(
y
n
−
w
T
x
n
)
2
2
δ
2
)
目
的
:
w
M
L
=
(
X
X
T
)
−
1
X
y
令
∂
log
p
(
y
∣
X
;
w
,
δ
)
∂
w
=
0
,
化
简
得
:
∂
(
∑
n
=
1
N
−
(
y
n
−
w
T
x
n
)
2
2
β
)
∂
w
=
0
∂
1
2
∣
∣
y
−
X
T
w
∣
∣
2
∂
w
=
0
−
X
(
y
−
X
T
w
)
=
0
得
:
w
M
L
=
(
X
X
T
)
−
1
X
y
已知:\log p(y|X;w,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(y_n;w^Tx_n,\delta^2)}\\ 注:\mathcal{N}(y_n;w^Tx_n,\delta^2)=\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y_n-w^Tx_n)^2}{2\delta^2})\\ 目的:w^ML=(XX^T)^{-1}Xy\\ 令\frac{\partial \log p(y|X;w,\delta)}{\partial w}=0,\quad 化简得:\\ \frac{\partial (\sum_{n=1}^{N}{\frac{-(y_n-w^Tx_n)^2}{2\beta}})}{\partial w}=0\\ \frac{\partial \frac{1}{2}||y-X^Tw||^2}{\partial w}=0\\ -X(y-X^Tw)=0\\ \quad得: \\ w^{ML}=(XX^T)^{-1}Xy\\
已知:logp(y∣X;w,δ)=n=1∑NlogN(yn;wTxn,δ2)注:N(yn;wTxn,δ2)=2πδ1exp(−2δ2(yn−wTxn)2)目的:wML=(XXT)−1Xy令∂w∂logp(y∣X;w,δ)=0,化简得:∂w∂(∑n=1N2β−(yn−wTxn)2)=0∂w∂21∣∣y−XTw∣∣2=0−X(y−XTw)=0得:wML=(XXT)−1Xy
1
)
x
服
从
N
(
x
n
;
μ
,
δ
2
)
:
log
N
(
x
n
;
μ
,
δ
2
)
=
log
1
2
π
δ
e
x
p
(
−
(
x
n
−
μ
)
2
2
δ
2
)
=
1
2
l
o
g
1
2
π
δ
2
−
(
x
n
−
μ
)
2
2
δ
2
似
然
函
数
:
log
p
(
x
∣
μ
,
δ
)
=
∑
n
=
1
N
log
N
(
x
n
;
μ
,
δ
2
)
=
N
2
l
o
g
1
2
π
δ
2
−
∑
n
=
1
N
(
x
n
−
μ
)
2
2
δ
2
令
∂
log
p
(
x
∣
μ
,
δ
)
∂
μ
=
0
,
化
简
得
:
∑
n
=
1
N
x
n
δ
2
=
N
μ
δ
2
故
:
μ
M
L
=
∑
n
=
1
N
x
n
N
1)\quad x~~服从~~\mathcal{N}(x_n;\mu,\delta^2):~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\\ \log \mathcal{N}(x_n;\mu,\delta^2)=\log\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_n-\mu)^2}{2\delta^2})=\frac{1}{2}log\frac{1}{2\pi\delta^2}-\frac{(x_n-\mu)^2}{2\delta^2}\\ 似然函数:~~~\log p(x|\mu,\delta)=\sum_{n=1}^{N}{\log \mathcal{N}(x_n;\mu,\delta^2)}=\frac{N}{2}log\frac{1}{2\pi\delta^2}-\sum_{n=1}^{N}{\frac{(x_n-\mu)^2}{2\delta^2}}\\ 令\frac{\partial \log p(x|\mu,\delta)}{\partial \mu}=0,\quad 化简得:\\ \sum_{n=1}^{N}{\frac{x_n}{\delta^2}}=\frac{N\mu}{\delta^2}\\ 故:~~~~\mu^{ML}=\frac{\sum_{n=1}^{N}{x_n}}{N}
1)x 服从 N(xn;μ,δ2): logN(xn;μ,δ2)=log2πδ1exp(−2δ2(xn−μ)2)=21log2πδ21−2δ2(xn−μ)2似然函数: logp(x∣μ,δ)=n=1∑NlogN(xn;μ,δ2)=2Nlog2πδ21−n=1∑N2δ2(xn−μ)2令∂μ∂logp(x∣μ,δ)=0,化简得:n=1∑Nδ2xn=δ2Nμ故: μML=N∑n=1Nxn
2)
答:
答:
- 高偏差原因:
数据特征过少;
模型复杂度太低;
正则化系数λ太大; - 高方差原因:
数据样例过少;
模型复杂度过高;
正则化系数λ太小;
没有使用交叉验证;
【注】:单纯增加训练集数目一般不会减小高偏差,但是会减小高方差。
答:未方便起见,将
f
D
(
x
)
、
f
∗
(
x
)
f_D(x)、f^*(x)
fD(x)、f∗(x)简化为
f
D
、
f
∗
f_D、f^*
fD、f∗
E
D
[
(
f
D
−
E
D
[
f
D
]
+
E
D
[
f
D
]
−
f
∗
)
2
]
=
E
D
[
(
f
D
−
E
D
[
f
D
]
)
2
]
+
2
E
D
[
(
f
D
−
E
d
[
f
D
]
)
(
E
D
[
f
D
]
−
f
∗
)
]
+
E
D
[
(
E
D
[
f
D
]
−
f
∗
)
2
]
=
E
D
[
(
f
D
−
E
D
[
f
D
]
)
2
]
+
2
E
D
[
f
D
E
D
[
f
D
]
−
f
D
f
∗
−
E
D
2
[
f
D
]
+
E
D
[
f
D
]
f
∗
]
+
E
D
[
E
D
2
[
f
D
]
−
2
E
D
[
f
D
]
f
∗
+
(
f
∗
)
2
]
=
E
D
[
(
f
D
−
E
D
[
f
D
]
)
2
]
+
2
E
D
2
[
f
D
]
−
2
E
D
[
f
D
f
∗
]
−
2
E
D
2
[
f
D
]
+
2
E
D
[
f
D
]
E
D
[
f
∗
]
+
E
D
2
[
f
D
]
−
2
E
D
[
f
D
]
E
D
[
f
∗
]
+
E
D
[
(
f
∗
)
2
]
=
E
D
[
(
f
D
−
E
D
[
f
D
]
)
2
]
+
E
D
2
[
f
D
]
−
2
E
D
[
f
D
f
∗
]
+
E
[
(
f
∗
)
2
]
E_D[(f_D-E_D[f_D]+E_D[f_D]-f^*)^2]\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[(f_D-E_d[f_D])(E_D[f_D]-f^*)]+E_D[(E_D[f_D]-f^*)^2] \\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D[f_DE_D[f_D]-f_Df^*-E_D^2[f_D]+E_D[f_D]f^*]+E_D[E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+2E_D^2[f_D]-2E_D[f_Df^*]-2E_D^2[f_D]+2E_D[f_D]E_D[f^*]+E_D^2[f_D]-2E_D[f_D]E_D[f^*]+E_D[(f^*)^2]\\ \\ =E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_Df^*]+E[(f^*)^2]\quad\quad\quad\quad
ED[(fD−ED[fD]+ED[fD]−f∗)2]=ED[(fD−ED[fD])2]+2ED[(fD−Ed[fD])(ED[fD]−f∗)]+ED[(ED[fD]−f∗)2]=ED[(fD−ED[fD])2]+2ED[fDED[fD]−fDf∗−ED2[fD]+ED[fD]f∗]+ED[ED2[fD]−2ED[fD]f∗+(f∗)2]=ED[(fD−ED[fD])2]+2ED2[fD]−2ED[fDf∗]−2ED2[fD]+2ED[fD]ED[f∗]+ED2[fD]−2ED[fD]ED[f∗]+ED[(f∗)2]=ED[(fD−ED[fD])2]+ED2[fD]−2ED[fDf∗]+E[(f∗)2]
注意:对于单个样本来说,
f
∗
f^*
f∗为常数,所以
2
E
D
[
f
D
f
∗
]
=
2
E
D
[
f
D
]
f
∗
2E_D[f_Df^*]=2E_D[f_D]f^*
2ED[fDf∗]=2ED[fD]f∗,
E
D
[
(
f
∗
)
2
]
=
(
f
∗
)
2
E_D[(f^*)^2]=(f^*)^2
ED[(f∗)2]=(f∗)2
所以,上述等式化为:
=
E
D
[
(
f
D
−
E
D
[
f
D
]
)
2
]
+
E
D
2
[
f
D
]
−
2
E
D
[
f
D
]
f
∗
+
(
f
∗
)
2
=
E
D
[
(
f
D
−
E
D
[
f
D
]
)
2
]
+
(
E
D
[
f
D
[
x
]
−
f
∗
)
2
=E_D[(f_D-E_D[f_D])^2]+E_D^2[f_D]-2E_D[f_D]f^*+(f^*)^2\quad\quad\quad\quad\quad\\ \\ =E_D[(f_D-E_D[f_D])^2]+(E_D[f_D[x]-f^*)^2\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad
=ED[(fD−ED[fD])2]+ED2[fD]−2ED[fD]f∗+(f∗)2=ED[(fD−ED[fD])2]+(ED[fD[x]−f∗)2
得证。
-
一元:
“我”、“打了”、“张三”
x 1 = [ 1 , 1 , 1 ] x 2 = [ 1 , 1 , 1 ] x_1=[1, 1, 1]\\ x_2=[1,1,1] x1=[1,1,1]x2=[1,1,1] -
二元:
“#我”、“我打了”、“打了张三 ”、“张三打了”、“打了我“
x 1 = [ 1 , 1 , 1 , 1 , 0 ] x 2 = [ 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0]\\ x_2=[0,0,0,1,1] x1=[1,1,1,1,0]x2=[0,0,0,1,1] -
三元:
”##我“、”#我打了“、”我打了张三“、”打了张三#“、”张三打了我“、”打了我#“
x 1 = [ 1 , 1 , 1 , 1 , 0 , 0 ] x 2 = [ 0 , 0 , 0 , 0 , 1 , 1 ] x_1=[1,1,1,1,0,0] x_2=[0,0,0,0,1,1] x1=[1,1,1,1,0,0]x2=[0,0,0,0,1,1]
词袋模型将文本看作词的集合, 不考虑词序信息, 不能精确地表示文本信息
真实类别\预测类别 | 1 | 2 | 3 |
---|---|---|---|
1 | 1 | 1 | 0 |
2 | 0 | 2 | 1 |
3 | 1 | 1 | 2 |