NNDL 作业2：第三章课后题

最新推荐文章于 2022-12-10 17:45:27 发布

牛奶园雪梨

最新推荐文章于 2022-12-10 17:45:27 发布

阅读量94

点赞数 1

本文链接：https://blog.csdn.net/m0_51799083/article/details/127017198

版权

本文探讨了线性空间中点到平面的距离证明，并解释了为何在Logistic回归中不适合使用平方损失函数进行优化。平方损失函数在误差非高斯分布的分类问题中表现不佳，而交叉熵损失函数与Sigmoid激活函数配合能更有效地优化模型。此外，正则化在Softmax回归中的作用是防止参数过大和过拟合。

摘要由CSDN通过智能技术生成

习题3-2 在线性空间中证明一个点x到平面 $f(x;w)=w^{T}x+b=0$ 的距离为 $\left | f(x;w) \right |/\left \| w \right \|$ .

证明：设平面内有一点x'使得 $x-x^{'}$ 垂直于此平面,又因为w垂直于此平面，所以有 $x-x^{'}$ 平行于 $\omega$ 即 $x-x^{'}=kw$ (k为常数)

因此点x到平面的距离 $\left | k \right |\left \| w \right \|$

又 $w^{T}x+b=f(x;w)$

$w^{T}x^{'}+b=0$

所以 $f(x;w)=w^{T}(x-x^{'})$

带入kw

$f(x;w)=w^{T}kw$

两边同时取模:

$\left \| k \right \|\left \| w \right \|=\frac{f(x;w)}{\left \| w \right \|}$

证毕

习题3-5 在Logistic回归中，是否可以用 $\hat{y}=\sigma (w^{T}x)$ 去逼近正确的标签y,并用平方损失 $(y-\hat{y})^{2}$ 最小化来优化参数 $\omega$ ？

答：从理论上来说，平方损失函数也可以用于分类问题，但不适合。首先，最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计，然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中，交叉熵在和Softmax激活函数的配合下，能够使得损失值越大导数越大，损失值越小导数越小，这就能加快学习速率。然而若使用平方损失函数，则损失越大导数反而越小，学习速率很慢。

当以平方损失作为loss function时：

$L=\frac{1}{2}(\hat{y}-y)^{2}$

$\frac{\partial L}{\partial w}=(\hat{y}-y)\sigma ^{'}x$

$w=w-\eta \frac{\partial L}{\partial w}=w-\eta (\hat{y}-y)\sigma ^{'}x$

由sigmoid函数图可知，横坐标较小或较大时，sigmoid函数趋于平缓，因此在大多数情况下其导数几乎为0，导致 $\frac{\partial L}{\partial w}$ 几乎为0， $\omega$ 很难去优化。

以 cross entropy 作为 loss function时：

$\sigma ^{'}=\sigma .(1-\sigma )y=\sigma (w^{T}x)$

$L=-yln\hat{y}-(1-y)ln(1-\hat{y})$

$\frac{\partial L}{\partial w}=-y\frac{1}{\hat{y}}{\sigma }'x-(1-y)\frac{1}{1-\hat{y}}(-1){\sigma }'x$

$\frac{\partial L}{\partial w}=-\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})}+\frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$