nndl第二次作业(3-2,3-5,3-6)
q1
在线性空间中,证明一个点 x x x到平面 f ( x ; w ) = w T x + b = 0 f(x;w)=w^Tx+b=0 f(x;w)=wTx+b=0的距离为 ∣ f ( x ; w ) ∣ ∣ ∣ w ∣ ∣ \frac{|f(x;w)|}{||w||} ∣∣w∣∣∣f(x;w)∣。
思路分析
这道题是数学题,我们使用数学的一般方法来证明。
解答
解:由原式
f
(
x
;
w
)
=
0
f(x;w)=0
f(x;w)=0可得超平面
f
f
f的法向量为
w
⃗
\vec{w}
w,设该超平面上一点
x
′
x'
x′使
x
x
⃗
=
x
−
x
′
\vec{x_x}=x-x'
xx=x−x′垂直于该超平面
=>
w
⃗
/
/
x
x
⃗
\vec{w} //\vec{x_x}
w//xx
=>
x
x
⃗
=
k
w
⃗
\vec{x_x}=k\vec{w}
xx=kw,其中k为一个常数(1)
=> 点
x
x
x到平面的距离即为
x
x
⃗
\vec{x_x}
xx的L2范数,即
=>
d
=
∣
k
∣
×
∣
∣
w
⃗
∣
∣
d=|k| × ||\vec{w}||
d=∣k∣×∣∣w∣∣
又由于
f
(
x
;
w
)
=
w
T
x
+
b
,
f
(
x
′
;
w
)
=
w
T
x
′
+
b
=
0
f(x;w)=w^Tx+b,f(x';w)=w^Tx'+b=0
f(x;w)=wTx+b,f(x′;w)=wTx′+b=0
=>
f
(
x
;
w
)
=
w
T
(
x
−
x
′
)
f(x;w)=w^T(x-x')
f(x;w)=wT(x−x′)
又有(1)可得
f
(
x
;
w
)
=
w
T
k
w
f(x;w)=w^Tkw
f(x;w)=wTkw
两边同时取模,得
=>
∣
f
(
x
;
w
)
∣
=
∣
∣
w
∣
∣
×
∣
k
∣
×
∣
∣
w
∣
∣
=
∣
∣
w
∣
∣
×
d
|f(x;w)| = ||w|| × |k| × ||w|| = ||w|| × d
∣f(x;w)∣=∣∣w∣∣×∣k∣×∣∣w∣∣=∣∣w∣∣×d
=>
d
=
∣
f
(
x
;
w
)
∣
∣
∣
w
∣
∣
d = \frac{|f(x;w)|}{||w||}
d=∣∣w∣∣∣f(x;w)∣
□
\square
□
q2
在Logistic回归中,是否可以使用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y,并用平方损失 ( y − y ^ ) 2 (y-\hat{y})^2 (y−y^)2最小化来优化参数 w w w?
思路分析
该问题分为两部分:
- 是否可用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y?——函数是否能很好地进行二分类?
- 是否可用平方损失
(
y
−
y
^
)
2
(y-\hat{y})^2
(y−y^)2最小化来优化参数
w
w
w?——使用平方损失能否很好地更新参数优化模型?
我们通过考虑函数原本的特性(映射的值域,函数的曲线形状等),还有在训练中不断优化时的损失变化等来综合考量。
解答
答:
- 对于第一问,由于Logistic将输入经过sigmoid函数,映射至接近0或1的值,因此能够使用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y,但是题目不是很清楚,如果只用一个函数去逼近多分类照片则不行。
- 对于第二问,由于损失 L = 1 2 ( y ^ − y ) 2 L=\frac{1}{2}(\hat{y}-y)^2 L=21(y^−y)2在模型能够较准确分类时值非常小(显而易见,在sigmoid的s型曲线两边都几乎是平的),由此,不论是SGD、LFBGS还是什么乱七八糟的最优化方法,他们由于基于梯度计算,再乘上学习率(又是一个小小的👌)得到一个能痛失韩国市场的小小小值,优化微乎其微,效果极差,因此不能使用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y。
- 综上,由于题目是“与”的关系,得到答案:不能。
q3
在Softmax回归的风险函数中,如果加上正则化项会有什么影响?
思路分析
首先思考正则化项的作用:防止过拟合或者数值错误。
然后基于作用分析正则化项加入后的计算过程,进行分析。
解答
解:首先我们知道Softmax函数为
R
(
W
)
=
−
1
N
∑
n
=
1
N
(
y
(
n
)
)
l
o
g
y
^
(
n
)
R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}
R(W)=−N1∑n=1N(y(n))logy^(n)
增加正则项,得:
=>
R
(
W
)
=
−
1
N
∑
n
=
1
N
(
y
(
n
)
)
l
o
g
y
^
(
n
)
+
λ
W
T
W
R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}+\lambda W^TW
R(W)=−N1∑n=1N(y(n))logy^(n)+λWTW
对W求偏导,得
=>
∂
R
(
W
)
∂
W
=
−
1
N
∑
n
=
1
N
(
y
^
(
n
)
−
y
(
n
)
)
x
(
n
)
+
2
λ
W
\frac{\partial R(W)}{\partial W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2 \lambda W
∂W∂R(W)=−N1∑n=1N(y^(n)−y(n))x(n)+2λW
=>
W
n
e
w
=
W
+
a
×
1
N
∑
n
=
1
N
(
y
^
(
n
)
−
y
(
n
)
)
x
(
n
)
−
2
λ
W
W_{new}=W+a ×\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda W
Wnew=W+a×N1∑n=1N(y^(n)−y(n))x(n)−2λW
相比原梯度,增加了每次减去的一个正则化项,当参数变大时该项变大,反之亦然,因此能够将参数控制在一定大小中,降低过拟合风险,同时由于精度问题等能够防止出现数值错误。
综上。