第三章习题
参考资料:
- https://blog.csdn.net/qq_38252142/article/details/109007372
- https://github.com/nndl/solutions/issues
答:决策平面为 w T x + b = 0 w^Tx+b=0 wTx+b=0,任意选择决策平面上两点: x 1 、 x 2 x_1、x_2 x1、x2,满足:
w T x 1 + b = 0 w^Tx_1+b=0 wTx1+b=0
w T x 2 + b = 0 w^Tx_2+b=0 wTx2+b=0
则两式相减得: w T ( x 1 − x 2 ) = 0 w^T(x_1-x_2)=0 wT(x1−x2)=0其中, x 1 − x 2 x_1-x_2 x1−x2即为决策平面上任意的向量,即 权重向量 w w w 与决策平面正交。
答:假设点x在平面 f ( x ; w ) f(x;w) f(x;w)的投影点为 x 1 x_1 x1,则点x到平面上的距离可以表示为:
d i s t a n c e = ∣ ∣ x − x 1 ∣ ∣ distance=||x-x_1|| distance=∣∣x−x1∣∣
因为 x 1 x_1 x1为平面上的点,所以满足平面方程,即: w T x 1 + b = 0 w^Tx_1+b=0 wTx1+b=0,解得 x 1 x_1 x1为:
x 1 = − w − T b x_1=-w^{-T}b x1=−w−Tb,代入距离公式:
d i s t a n c e = ∣ ∣ x + w − T b ∣ ∣ = ∣ ∣ w ∣ ∣ ∗ ∣ ∣ x + w − T b ∣ ∣ ∣ ∣ w ∣ ∣ = ∣ ∣ w x + b ∣ ∣ ∣ ∣ w ∣ ∣ = ∣ f ( x ; w ) ∣ ∣ ∣ w ∣ ∣ distance=||x+w^{-T}b||=\frac{||w||*||x+w^{-T}b||}{||w||}=\frac{||wx+b||}{||w||}=\frac{|f(x;w)|}{||w||} distance=∣∣x+w−Tb∣∣=∣∣w∣∣∣∣w∣∣∗∣∣x+w−Tb∣∣=∣∣w∣∣∣∣wx+b∣∣=∣∣w∣∣∣f(x;w)∣
答:由凸函数的性质: f ( ρ x 1 + ( 1 − ρ ) x 2 ) ≤ ρ x 1 + ( 1 − ρ ) x 2 f(\rho x_1+(1-\rho)x_2)\leq \rho x_1+(1-\rho)x_2 f(ρx1+(1−ρ)x2)≤ρx1+(1−ρ)x2即得。
由题意可知, w c T x 1 > w c ˉ T x 1 w_c^Tx_1>w_{\bar{c}}^Tx_1 wcTx1>wcˉTx1, w c T x 2 > w c ˉ T x 2 w_c^Tx_2>w_{\bar{c}}^Tx_2 wcTx2>wcˉTx2。
则: ρ ( w c T x 1 − w c ˉ T x 1 ) > 0 \rho(w_c^Tx_1-w_{\bar{c}}^Tx_1)>0 ρ(wcTx1−wcˉTx1)>0, ( 1 − ρ ) ( w c T x 2 − w c ˉ T x 2 ) > 0 (1-\rho)(w_c^Tx_2-w_{\bar{c}}^Tx_2)>0 (1−ρ)(wcTx2−wcˉTx2)>0
两式相加: ρ ( w c T x 1 − w c ˉ T x 1 ) + ( 1 − ρ ) ( w c T x 2 − w c ˉ T x 2 ) > 0 \rho(w_c^Tx_1-w_{\bar{c}}^Tx_1)+(1-\rho)(w_c^Tx_2-w_{\bar{c}}^Tx_2)>0 ρ(wcTx1−wcˉTx1)+(1−ρ)(wcTx2−wcˉTx2)>0
整理得:
w c T ( ρ x 1 + ( 1 − ρ ) x 2 ) > w c ˉ T ( ρ x 1 + ( 1 − ρ ) x 2 ) w_c^T(\rho x_1+(1-\rho)x_2)>w_{\bar{c}}^T(\rho x_1+(1-\rho)x_2) wcT(ρx1+(1−ρ)x2)>wcˉT(ρx1+(1−ρ)x2)
故得证。
答:不可以。 y ^ = σ ( w T x ) = 1 1 + e x p ( − w T X ) \hat{y}=\sigma(w^Tx)=\frac{1}{1+exp(-w^TX)} y^=σ(wTx)=1+exp(−wTX)1是连续函数,不适用分类问题。平方损失同样不适合用来优化参数 w w w,因为 y ^ \hat{y} y^到 y y y的距离并没有实际意义,无法表示预测的准确性。
答:正则化就是对最小化经验误差函数上加约束。加入正则化可以限制权重向量的大小,防止过拟合。
答:
x
T
z
=
x
1
z
1
+
x
2
z
2
x^Tz=x_1z_1+x_2z_2
xTz=x1z1+x2z2
(
1
+
x
T
z
)
2
=
1
+
2
x
T
z
+
(
x
T
z
)
2
(1+x^Tz)^2=1+2x^Tz+(x^Tz)^2
(1+xTz)2=1+2xTz+(xTz)2
ϕ
(
x
)
T
ϕ
(
z
)
=
1
+
2
x
1
z
1
+
2
x
2
z
2
+
2
x
1
x
2
z
1
z
2
+
x
1
2
z
1
2
+
x
2
2
z
2
2
=
1
+
2
x
T
z
+
(
x
T
z
)
2
\phi(x)^T\phi(z)=1+2x_1z_1+2x_2z_2+2x_1x_2z_1z_2+x_1^2z_1^2+x_2^2z_2^2=1+2x^Tz+(x^Tz)^2
ϕ(x)Tϕ(z)=1+2x1z1+2x2z2+2x1x2z1z2+x12z12+x22z22=1+2xTz+(xTz)2
得证。