[2022-09-23]神经网络与深度学习 hw2

这篇博客探讨了线性空间中点到平面的距离公式证明,解释了Logistic回归为何不能用平方损失函数优化参数,并分析了Softmax回归正则化项的影响。内容涉及数学证明、模型优化与防止过拟合策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

nndl第二次作业(3-2,3-5,3-6)

q1

在线性空间中,证明一个点xxx到平面f(x;w)=wTx+b=0f(x;w)=w^Tx+b=0f(x;w)=wTx+b=0的距离为∣f(x;w)∣∣∣w∣∣\frac{|f(x;w)|}{||w||}∣∣w∣∣f(x;w)

思路分析

这道题是数学题,我们使用数学的一般方法来证明。

解答

解:由原式f(x;w)=0f(x;w)=0f(x;w)=0可得超平面fff的法向量为w⃗\vec{w}w,设该超平面上一点x′x'x使xx⃗=x−x′\vec{x_x}=x-x'xx=xx垂直于该超平面
=> w⃗//xx⃗\vec{w} //\vec{x_x}w//xx
=> xx⃗=kw⃗\vec{x_x}=k\vec{w}xx=kw,其中k为一个常数(1)
=> 点xxx到平面的距离即为xx⃗\vec{x_x}xx的L2范数,即
=> d=∣k∣×∣∣w⃗∣∣d=|k| × ||\vec{w}||d=k×∣∣w∣∣
又由于f(x;w)=wTx+b,f(x′;w)=wTx′+b=0f(x;w)=w^Tx+b,f(x';w)=w^Tx'+b=0f(x;w)=wTx+b,f(x;w)=wTx+b=0
=> f(x;w)=wT(x−x′)f(x;w)=w^T(x-x')f(x;w)=wT(xx)
又有(1)可得f(x;w)=wTkwf(x;w)=w^Tkwf(x;w)=wTkw
两边同时取模,得
=> ∣f(x;w)∣=∣∣w∣∣×∣k∣×∣∣w∣∣=∣∣w∣∣×d|f(x;w)| = ||w|| × |k| × ||w|| = ||w|| × df(x;w)=∣∣w∣∣×k×∣∣w∣∣=∣∣w∣∣×d
=> d=∣f(x;w)∣∣∣w∣∣d = \frac{|f(x;w)|}{||w||}d=∣∣w∣∣f(x;w)
□\square

q2

在Logistic回归中,是否可以使用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy,并用平方损失(y−y^)2(y-\hat{y})^2(yy^)2最小化来优化参数www

思路分析

该问题分为两部分:

  • 是否可用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy?——函数是否能很好地进行二分类?
  • 是否可用平方损失(y−y^)2(y-\hat{y})^2(yy^)2最小化来优化参数www?——使用平方损失能否很好地更新参数优化模型?
    我们通过考虑函数原本的特性(映射的值域,函数的曲线形状等),还有在训练中不断优化时的损失变化等来综合考量。

解答

答:

  • 对于第一问,由于Logistic将输入经过sigmoid函数,映射至接近0或1的值,因此能够使用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy,但是题目不是很清楚,如果只用一个函数去逼近多分类照片则不行。
  • 对于第二问,由于损失L=12(y^−y)2L=\frac{1}{2}(\hat{y}-y)^2L=21(y^y)2在模型能够较准确分类时值非常小(显而易见,在sigmoid的s型曲线两边都几乎是平的),由此,不论是SGD、LFBGS还是什么乱七八糟的最优化方法,他们由于基于梯度计算,再乘上学习率(又是一个小小的👌)得到一个能痛失韩国市场的小小小值,优化微乎其微,效果极差,因此不能使用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy
  • 综上,由于题目是“与”的关系,得到答案:不能。

q3

在Softmax回归的风险函数中,如果加上正则化项会有什么影响?

思路分析

首先思考正则化项的作用:防止过拟合或者数值错误。
然后基于作用分析正则化项加入后的计算过程,进行分析。

解答

解:首先我们知道Softmax函数为R(W)=−1N∑n=1N(y(n))logy^(n)R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}R(W)=N1n=1N(y(n))logy^(n)
增加正则项,得:
=> R(W)=−1N∑n=1N(y(n))logy^(n)+λWTWR(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}+\lambda W^TWR(W)=N1n=1N(y(n))logy^(n)+λWTW
对W求偏导,得
=> ∂R(W)∂W=−1N∑n=1N(y^(n)−y(n))x(n)+2λW\frac{\partial R(W)}{\partial W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2 \lambda WWR(W)=N1n=1N(y^(n)y(n))x(n)+2λW
=> Wnew=W+a×1N∑n=1N(y^(n)−y(n))x(n)−2λWW_{new}=W+a ×\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda WWnew=W+a×N1n=1N(y^(n)y(n))x(n)2λW
相比原梯度,增加了每次减去的一个正则化项,当参数变大时该项变大,反之亦然,因此能够将参数控制在一定大小中,降低过拟合风险,同时由于精度问题等能够防止出现数值错误。


综上。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值