[2022-09-23]神经网络与深度学习 hw2_在softmax回归的风险函数中加上正则化项会有什么影响-CSDN博客

本文链接：https://blog.csdn.net/LupnisJ/article/details/127018343

这篇博客探讨了线性空间中点到平面的距离公式证明，解释了Logistic回归为何不能用平方损失函数优化参数，并分析了Softmax回归正则化项的影响。内容涉及数学证明、模型优化与防止过拟合策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

nndl第二次作业（3-2,3-5,3-6)

q1

在线性空间中，证明一个点 $x$ 到平面 $f(x;w)=w^Tx+b=0$ 的距离为 $∣f(x;w)∣∣∣w∣∣\frac{|f(x;w)|}{||w||}$ 。

思路分析

这道题是数学题，我们使用数学的一般方法来证明。

解答

解：由原式 $f (x; w) = 0$ 可得超平面 $f$ 的法向量为 $w⃗\vec{w}$ ，设该超平面上一点 $x^{'}$ 使 $xx⃗=x−x′\vec{x_x}=x-x'$ 垂直于该超平面
=> $w⃗//xx⃗\vec{w} //\vec{x_x}$
=> $xx⃗=kw⃗\vec{x_x}=k\vec{w}$ ，其中k为一个常数(1)
=> 点 $x$ 到平面的距离即为 $xx⃗\vec{x_x}$ 的L2范数，即
=> $||\vec{w}||$
又由于 $f(x;w)=w^Tx+b,f(x';w)=w^Tx'+b=0$
=> $f(x;w)=w^T(x-x')$
又有(1)可得 $f(x;w)=w^Tkw$
两边同时取模，得
=> $∣ f (x; w) ∣ = ∣∣ w ∣∣ \times ∣ k ∣ \times ∣∣ w ∣∣ = ∣∣ w ∣∣ \times d$
=> $\frac{|f(x;w)|}{||w||}$
$□\square$

q2

在Logistic回归中，是否可以使用 $y^=σ(wTx)\hat{y}=\sigma(w^Tx)$ 去逼近正确的标签 $y$ ，并用平方损失 $(y−y^)2(y-\hat{y})^2$ 最小化来优化参数 $w$ ？

思路分析

该问题分为两部分：

是否可用 $y^=σ(wTx)\hat{y}=\sigma(w^Tx)$ 去逼近正确的标签 $y$ ？——函数是否能很好地进行二分类？
是否可用平方损失 $(y−y^)2(y-\hat{y})^2$ 最小化来优化参数 $w$ ？——使用平方损失能否很好地更新参数优化模型？
我们通过考虑函数原本的特性（映射的值域，函数的曲线形状等），还有在训练中不断优化时的损失变化等来综合考量。

解答

答：

对于第一问，由于Logistic将输入经过sigmoid函数，映射至接近0或1的值，因此能够使用 $y^=σ(wTx)\hat{y}=\sigma(w^Tx)$ 去逼近正确的标签 $y$ ，但是题目不是很清楚，如果只用一个函数去逼近多分类照片则不行。
对于第二问，由于损失 $L=12(y^−y)2L=\frac{1}{2}(\hat{y}-y)^2$ 在模型能够较准确分类时值非常小（显而易见，在sigmoid的s型曲线两边都几乎是平的），由此，不论是SGD、LFBGS还是什么乱七八糟的最优化方法，他们由于基于梯度计算，再乘上学习率（又是一个小小的👌）得到一个能痛失韩国市场的小小小值，优化微乎其微，效果极差，因此不能使用 $y^=σ(wTx)\hat{y}=\sigma(w^Tx)$ 去逼近正确的标签 $y$ 。
综上，由于题目是“与”的关系，得到答案：不能。

q3

在Softmax回归的风险函数中，如果加上正则化项会有什么影响？

思路分析

首先思考正则化项的作用：防止过拟合或者数值错误。
然后基于作用分析正则化项加入后的计算过程，进行分析。

解答

解：首先我们知道Softmax函数为 $R(W)=−1N∑n=1N(y(n))logy^(n)R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}$
增加正则项，得：
=> $R(W)=−1N∑n=1N(y(n))logy^(n)+λWTWR(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}+\lambda W^TW$
对W求偏导，得
=> $∂R(W)∂W=−1N∑n=1N(y^(n)−y(n))x(n)+2λW\frac{\partial R(W)}{\partial W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2 \lambda W$
=> $Wnew=W+a×1N∑n=1N(y^(n)−y(n))x(n)−2λWW_{new}=W+a ×\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda W$
相比原梯度，增加了每次减去的一个正则化项，当参数变大时该项变大，反之亦然，因此能够将参数控制在一定大小中，降低过拟合风险，同时由于精度问题等能够防止出现数值错误。

综上。