写在前面的一些内容
本次习题来源于 神经网络与深度学习 pdf电子书的第90页和第91页(对应纸质版第77页和第78页)的习题3-2、习题3-5和习题3-6。
水平有限,难免有误,如有错漏之处敬请指正。
习题3-2
在线性空间中,证明一个点 x \boldsymbol{x} x到平面 f ( x ; w ) = w T x + b = 0 f(\boldsymbol{x};\boldsymbol{w})=\boldsymbol{w}^T\boldsymbol{x}+b=0 f(x;w)=wTx+b=0距离为 ∣ f ( x ; w ) ∣ / ∣ ∣ w ∣ ∣ |f(\boldsymbol{x};\boldsymbol{w})|/||\boldsymbol{w}|| ∣f(x;w)∣/∣∣w∣∣。
答:
取平面
f
(
x
;
w
)
=
0
f(\boldsymbol{x};\boldsymbol{w})=0
f(x;w)=0中任意一点
x
0
\boldsymbol{x_0}
x0作向量
x
0
x
→
\overrightarrow{\boldsymbol{x_{0}x}}
x0x,在平面法向量
n
→
\overrightarrow{\boldsymbol{n}}
n(即
w
\boldsymbol{w}
w)上的投影
d
d
d满足
d
=
∣
∣
x
0
x
→
∣
∣
⋅
c
o
s
(
θ
)
d=||\overrightarrow{\boldsymbol{x_{0}x}}||\cdot cos(\theta)
d=∣∣x0x∣∣⋅cos(θ)其中
θ
\theta
θ为
n
→
\overrightarrow{\boldsymbol{n}}
n与
x
0
x
→
\overrightarrow{\boldsymbol{x_{0}x}}
x0x的夹角。
c
o
s
(
θ
)
=
∣
x
0
x
→
⋅
w
∣
∣
∣
x
0
x
→
∣
∣
∣
∣
w
∣
∣
=
∣
x
→
⋅
w
−
x
0
→
⋅
w
∣
∣
∣
x
0
x
→
∣
∣
∣
∣
w
∣
∣
=
∣
f
(
x
;
w
)
−
f
(
x
0
;
w
)
∣
∣
∣
x
0
x
→
∣
∣
∣
∣
w
∣
∣
cos(\theta)=\frac{|\overrightarrow{\boldsymbol{x_{0}x}} \cdot \boldsymbol{w}|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||}=\frac{|\overrightarrow{\boldsymbol{x}} \cdot \boldsymbol{w}-\overrightarrow{\boldsymbol{x_0}} \cdot \boldsymbol{w}|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||}=\frac{|f(\boldsymbol{x};\boldsymbol{w})-f(\boldsymbol{x_0};\boldsymbol{w})|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||}
cos(θ)=∣∣x0x∣∣∣∣w∣∣∣x0x⋅w∣=∣∣x0x∣∣∣∣w∣∣∣x⋅w−x0⋅w∣=∣∣x0x∣∣∣∣w∣∣∣f(x;w)−f(x0;w)∣因为点在平面内
x
0
\boldsymbol{x_0}
x0在平面
f
(
x
;
w
)
f(\boldsymbol{x};\boldsymbol{w})
f(x;w)内,所以
f
(
x
0
;
w
)
=
0
f(\boldsymbol{x_0};\boldsymbol{w})=0
f(x0;w)=0,即
c
o
s
(
θ
)
=
∣
f
(
x
;
w
)
∣
∣
∣
x
0
x
→
∣
∣
∣
∣
w
∣
∣
cos(\theta)=\frac{|f(\boldsymbol{x};\boldsymbol{w})|}{||\overrightarrow{\boldsymbol{x_{0}x}}||||\boldsymbol{w}||}
cos(θ)=∣∣x0x∣∣∣∣w∣∣∣f(x;w)∣将上式代入
d
d
d,可得
d
=
∣
f
(
x
;
w
)
∣
/
∣
∣
w
∣
∣
d=|f(\boldsymbol{x};\boldsymbol{w})|/||\boldsymbol{w}||
d=∣f(x;w)∣/∣∣w∣∣
习题3-5
在Logistic回归中,是否可以用 y ^ = σ ( w T x ) \hat{y}=\sigma(\boldsymbol{w}^T\boldsymbol{x}) y^=σ(wTx)去逼近正确的标签 y y y,并用平方损失 ( y − y ^ ) 2 (y-\hat{y})^2 (y−y^)2最小化来优化参数 w \boldsymbol{w} w?
答:和上一章的习题2-1类似,在分类问题中我们只关注在其中一类中正确的概率,而不关注对于其他类别的预测正确概率,所以在分类问题中不适用平平方损失函数。
综上。
习题3-6
在Softmax回归的风险函数
R ( W ) = − 1 N ∑ n = 1 N ( y ( n ) ) T l o g y ^ ( n ) \mathcal{R}(\boldsymbol{W})=-\frac{1}{N}\sum_{n=1}^N(\boldsymbol{y}^{(n)})^Tlog\boldsymbol{\hat{y}}^{(n)} R(W)=−N1n=1∑N(y(n))Tlogy^(n)中,如果加上正则化项会有什么影响?
Softmax回归中使用的𝐶个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量 v v v,不改变其输出结果。因此,Softmax回归往往需要使用正则化来约束其参数。此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题。