[2022-09-23]神经网络与深度学习 hw2

nndl第二次作业(3-2,3-5,3-6)

q1

在线性空间中,证明一个点 x x x到平面 f ( x ; w ) = w T x + b = 0 f(x;w)=w^Tx+b=0 f(x;w)=wTx+b=0的距离为 ∣ f ( x ; w ) ∣ ∣ ∣ w ∣ ∣ \frac{|f(x;w)|}{||w||} ∣∣w∣∣f(x;w)

思路分析

这道题是数学题,我们使用数学的一般方法来证明。

解答

解:由原式 f ( x ; w ) = 0 f(x;w)=0 f(x;w)=0可得超平面 f f f的法向量为 w ⃗ \vec{w} w ,设该超平面上一点 x ′ x' x使 x x ⃗ = x − x ′ \vec{x_x}=x-x' xx =xx垂直于该超平面
=> w ⃗ / / x x ⃗ \vec{w} //\vec{x_x} w //xx
=> x x ⃗ = k w ⃗ \vec{x_x}=k\vec{w} xx =kw ,其中k为一个常数(1)
=> 点 x x x到平面的距离即为 x x ⃗ \vec{x_x} xx 的L2范数,即
=> d = ∣ k ∣ × ∣ ∣ w ⃗ ∣ ∣ d=|k| × ||\vec{w}|| d=k×∣∣w ∣∣
又由于 f ( x ; w ) = w T x + b , f ( x ′ ; w ) = w T x ′ + b = 0 f(x;w)=w^Tx+b,f(x';w)=w^Tx'+b=0 f(x;w)=wTx+b,f(x;w)=wTx+b=0
=> f ( x ; w ) = w T ( x − x ′ ) f(x;w)=w^T(x-x') f(x;w)=wT(xx)
又有(1)可得 f ( x ; w ) = w T k w f(x;w)=w^Tkw f(x;w)=wTkw
两边同时取模,得
=> ∣ f ( x ; w ) ∣ = ∣ ∣ w ∣ ∣ × ∣ k ∣ × ∣ ∣ w ∣ ∣ = ∣ ∣ w ∣ ∣ × d |f(x;w)| = ||w|| × |k| × ||w|| = ||w|| × d f(x;w)=∣∣w∣∣×k×∣∣w∣∣=∣∣w∣∣×d
=> d = ∣ f ( x ; w ) ∣ ∣ ∣ w ∣ ∣ d = \frac{|f(x;w)|}{||w||} d=∣∣w∣∣f(x;w)
□ \square

q2

在Logistic回归中,是否可以使用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y,并用平方损失 ( y − y ^ ) 2 (y-\hat{y})^2 (yy^)2最小化来优化参数 w w w

思路分析

该问题分为两部分:

  • 是否可用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y?——函数是否能很好地进行二分类?
  • 是否可用平方损失 ( y − y ^ ) 2 (y-\hat{y})^2 (yy^)2最小化来优化参数 w w w?——使用平方损失能否很好地更新参数优化模型?
    我们通过考虑函数原本的特性(映射的值域,函数的曲线形状等),还有在训练中不断优化时的损失变化等来综合考量。

解答

答:

  • 对于第一问,由于Logistic将输入经过sigmoid函数,映射至接近0或1的值,因此能够使用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y,但是题目不是很清楚,如果只用一个函数去逼近多分类照片则不行。
  • 对于第二问,由于损失 L = 1 2 ( y ^ − y ) 2 L=\frac{1}{2}(\hat{y}-y)^2 L=21(y^y)2在模型能够较准确分类时值非常小(显而易见,在sigmoid的s型曲线两边都几乎是平的),由此,不论是SGD、LFBGS还是什么乱七八糟的最优化方法,他们由于基于梯度计算,再乘上学习率(又是一个小小的👌)得到一个能痛失韩国市场的小小小值,优化微乎其微,效果极差,因此不能使用 y ^ = σ ( w T x ) \hat{y}=\sigma(w^Tx) y^=σ(wTx)去逼近正确的标签 y y y
  • 综上,由于题目是“与”的关系,得到答案:不能。

q3

在Softmax回归的风险函数中,如果加上正则化项会有什么影响?

思路分析

首先思考正则化项的作用:防止过拟合或者数值错误。
然后基于作用分析正则化项加入后的计算过程,进行分析。

解答

解:首先我们知道Softmax函数为 R ( W ) = − 1 N ∑ n = 1 N ( y ( n ) ) l o g y ^ ( n ) R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)} R(W)=N1n=1N(y(n))logy^(n)
增加正则项,得:
=> R ( W ) = − 1 N ∑ n = 1 N ( y ( n ) ) l o g y ^ ( n ) + λ W T W R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}+\lambda W^TW R(W)=N1n=1N(y(n))logy^(n)+λWTW
对W求偏导,得
=> ∂ R ( W ) ∂ W = − 1 N ∑ n = 1 N ( y ^ ( n ) − y ( n ) ) x ( n ) + 2 λ W \frac{\partial R(W)}{\partial W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2 \lambda W WR(W)=N1n=1N(y^(n)y(n))x(n)+2λW
=> W n e w = W + a × 1 N ∑ n = 1 N ( y ^ ( n ) − y ( n ) ) x ( n ) − 2 λ W W_{new}=W+a ×\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda W Wnew=W+a×N1n=1N(y^(n)y(n))x(n)2λW
相比原梯度,增加了每次减去的一个正则化项,当参数变大时该项变大,反之亦然,因此能够将参数控制在一定大小中,降低过拟合风险,同时由于精度问题等能够防止出现数值错误。


综上。
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值