nndl第二次作业(3-2,3-5,3-6)
q1
在线性空间中,证明一个点xxx到平面f(x;w)=wTx+b=0f(x;w)=w^Tx+b=0f(x;w)=wTx+b=0的距离为∣f(x;w)∣∣∣w∣∣\frac{|f(x;w)|}{||w||}∣∣w∣∣∣f(x;w)∣。
思路分析
这道题是数学题,我们使用数学的一般方法来证明。
解答
解:由原式f(x;w)=0f(x;w)=0f(x;w)=0可得超平面fff的法向量为w⃗\vec{w}w,设该超平面上一点x′x'x′使xx⃗=x−x′\vec{x_x}=x-x'xx=x−x′垂直于该超平面
=> w⃗//xx⃗\vec{w} //\vec{x_x}w//xx
=> xx⃗=kw⃗\vec{x_x}=k\vec{w}xx=kw,其中k为一个常数(1)
=> 点xxx到平面的距离即为xx⃗\vec{x_x}xx的L2范数,即
=> d=∣k∣×∣∣w⃗∣∣d=|k| × ||\vec{w}||d=∣k∣×∣∣w∣∣
又由于f(x;w)=wTx+b,f(x′;w)=wTx′+b=0f(x;w)=w^Tx+b,f(x';w)=w^Tx'+b=0f(x;w)=wTx+b,f(x′;w)=wTx′+b=0
=> f(x;w)=wT(x−x′)f(x;w)=w^T(x-x')f(x;w)=wT(x−x′)
又有(1)可得f(x;w)=wTkwf(x;w)=w^Tkwf(x;w)=wTkw
两边同时取模,得
=> ∣f(x;w)∣=∣∣w∣∣×∣k∣×∣∣w∣∣=∣∣w∣∣×d|f(x;w)| = ||w|| × |k| × ||w|| = ||w|| × d∣f(x;w)∣=∣∣w∣∣×∣k∣×∣∣w∣∣=∣∣w∣∣×d
=> d=∣f(x;w)∣∣∣w∣∣d = \frac{|f(x;w)|}{||w||}d=∣∣w∣∣∣f(x;w)∣
□\square□
q2
在Logistic回归中,是否可以使用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy,并用平方损失(y−y^)2(y-\hat{y})^2(y−y^)2最小化来优化参数www?
思路分析
该问题分为两部分:
- 是否可用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy?——函数是否能很好地进行二分类?
- 是否可用平方损失(y−y^)2(y-\hat{y})^2(y−y^)2最小化来优化参数www?——使用平方损失能否很好地更新参数优化模型?
我们通过考虑函数原本的特性(映射的值域,函数的曲线形状等),还有在训练中不断优化时的损失变化等来综合考量。
解答
答:
- 对于第一问,由于Logistic将输入经过sigmoid函数,映射至接近0或1的值,因此能够使用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy,但是题目不是很清楚,如果只用一个函数去逼近多分类照片则不行。
- 对于第二问,由于损失L=12(y^−y)2L=\frac{1}{2}(\hat{y}-y)^2L=21(y^−y)2在模型能够较准确分类时值非常小(显而易见,在sigmoid的s型曲线两边都几乎是平的),由此,不论是SGD、LFBGS还是什么乱七八糟的最优化方法,他们由于基于梯度计算,再乘上学习率(又是一个小小的👌)得到一个能痛失韩国市场的小小小值,优化微乎其微,效果极差,因此不能使用y^=σ(wTx)\hat{y}=\sigma(w^Tx)y^=σ(wTx)去逼近正确的标签yyy。
- 综上,由于题目是“与”的关系,得到答案:不能。
q3
在Softmax回归的风险函数中,如果加上正则化项会有什么影响?
思路分析
首先思考正则化项的作用:防止过拟合或者数值错误。
然后基于作用分析正则化项加入后的计算过程,进行分析。
解答
解:首先我们知道Softmax函数为R(W)=−1N∑n=1N(y(n))logy^(n)R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}R(W)=−N1∑n=1N(y(n))logy^(n)
增加正则项,得:
=> R(W)=−1N∑n=1N(y(n))logy^(n)+λWTWR(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}+\lambda W^TWR(W)=−N1∑n=1N(y(n))logy^(n)+λWTW
对W求偏导,得
=> ∂R(W)∂W=−1N∑n=1N(y^(n)−y(n))x(n)+2λW\frac{\partial R(W)}{\partial W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2 \lambda W∂W∂R(W)=−N1∑n=1N(y^(n)−y(n))x(n)+2λW
=> Wnew=W+a×1N∑n=1N(y^(n)−y(n))x(n)−2λWW_{new}=W+a ×\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda WWnew=W+a×N1∑n=1N(y^(n)−y(n))x(n)−2λW
相比原梯度,增加了每次减去的一个正则化项,当参数变大时该项变大,反之亦然,因此能够将参数控制在一定大小中,降低过拟合风险,同时由于精度问题等能够防止出现数值错误。
综上。