NNDL 作业2：第三章课后题

最新推荐文章于 2022-11-27 19:01:38 发布

Persevere~~~

最新推荐文章于 2022-11-27 19:01:38 发布

阅读量157

点赞数 1

文章标签： java 前端开发语言

本文链接：https://blog.csdn.net/m0_73478739/article/details/127027942

版权

习题3-2

习题3-5

习题3-6

习题3-2

在线性空间中，证明一个点 $x$ 到平面 $f(x;w)=w^{T}+b=0$ 的距离为 $\left | f(x;w) \right |/\left \| w \right \|$ 。

答：

设平面内有一点 $x'$ ，使得 $x-x^{'}$ 垂直于此平面,

又因为 $w$ 垂直于此平面，所以有 $x-x^{'}$ 平行于 $w$

即: $x-x^{'}=kw$ (k为常数)

因此点 $x$ 到平面的距离为 $\left | k \right |\left \| w \right \|$

又 $w^{T}x+b=f(x;w)$

$w^{T}x^{'}+b=0$

所以 $f(x;w)=w^{T}(x-x^{'})$

代入 $kw$

$f(x;w)=w^{T}kw$

两边同时取模:

得到点到平面的距离为

$\left | k \right |\left \| w \right \|=\frac{f(x;w)}{\left \| w \right \|}$

证明完毕

习题3-5

在Logistic回归中，是否可以用 $\hat{y}=\sigma (w_{T}x)$ 去逼近正确的标签 $y$ ，并用平方损失 $(y-\hat{y})^{2}$ 最小化来优化参数 $w$ ？

答：

结论为：在使用sigmoid为激活函数时，不能使用平方损失作为损失函数,效果远不如交叉熵损失函数。

(1)当以平方损失作为loss function时：

$L=\frac{1}{2}(\hat{y}-y)^{2}$

$\frac{\partial L }{\partial \omega }= (\hat{y}-y) {\sigma }'x$

$\omega=\omega-\eta \frac{\partial L}{\partial \omega }=\omega -\eta (\hat{y}-y){\sigma }'x$

由sigmoid函数图可知，横坐标较小或较大时，sigmoid函数趋于平缓，因此在大多数情况下其导数几乎为0，导致 $\frac{\partial L}{\partial \omega }$ 几乎为0， $w$ 很难去优化。

（2）当以 cross entropy 作为 loss function时：

${\sigma }'=\sigma\cdot (1-\sigma )y=\sigma(\omega ^{T}x)$

$L=-yln\hat{y}-(1-y)ln(1-\hat{y})$

$\frac{\partial L}{\partial \omega }=-y\frac{1}{\hat{y}}{ \sigma }'x-(1-y)\frac{1}{1-\hat{y}}(-1){\sigma }'x$

$\frac{\partial L}{\partial \omega }=-\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})}+\frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$\frac{\partial L }{\partial \omega }=\frac{\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$\frac{\partial L}{\partial \omega }=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}=(\hat{y}-y)x$

可以看到梯度公式中没有 ${\sigma }'$ 这一项，权重受到误差 $(y-\hat{y})$ 的影响，所以当误差大的时候，权重更新快；当误差小的时候，权重更新慢。这是一个很好的性质。

所以当使用sigmoid作为激活函数的时候，常用交叉熵损失函数而不是用均方误差损失函数。

习题3-6

在 Softmax 回归的风险函数中，如果加上正则化项会有什么影响？

答：

Softmax 回归的风险函数公式：

$R(\omega )=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}$

加入正则化后：

$R(\omega )=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda \omega ^{T}\omega$

则

$gif.latex?%5Cfrac%7B%5Cpartial%20R%28w%29%7D%7B%5Cpartial%20w%7D%3D-%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bn%3D1%7D%5E%7BN%7D%28%5Chat%7By%7D%5E%7B%28n%29%7D-y%5E%7B%28n%29%7D%29x%5E%7B%28n%29%7D+2%5Clambda%20w$