神经网络与深度学习-作业2

小鬼缠身、

已于 2022-10-02 17:00:33 修改

阅读量552

点赞数 2

文章标签：机器学习人工智能

于 2022-09-22 22:25:20 首次发布

本文链接：https://blog.csdn.net/ABU366/article/details/127000491

版权

习题3-2：在线性空间中，证明一个点 $x$ 到平面 $f(x;w) = w^{T}x + b = 0$ 的距离为 $\frac{|f(x;w)|}{||w||}$ .证明：设平面内有一点 $x^{'}$ ，使得 $x-$ $x^{'}$ 垂直于此平面

又因为 w 垂直于此平面，所以有 $x-$ $x^{'}$ 平行于 w。即： $x-x^{'} = kw$ （ $k$ 为常数）因此点 x 到平面距离为 |k|‖w‖, 又 $w^{T}x + b = f(x;w)$ ,所以 $f(x;w) = w^{T}(x-x^{'})$ ,带入 $kw$ ,有 $f(x;w) = w^{T}kw$

两边同时取模: $|f(x;w)| = ||w||*|b|*||w||$ , $|b|*||w|| = f(x;w)||w||$

证毕

[习题3-5] 在Logistic回归中，是否可以用 $\hat{y} = \sigma (w^{T}x)$ 去逼近正确的标签 $y$ ,并用平方损失 $(y-\hat{y})^{2}$ 最小化来优化参数 $w$ ？

第一种情况，当以平方损失为loss function时：

$L = \frac{1}{2}(\hat{y} - y)^{2}$

$\frac{\partial L}{\partial w} = (\hat{y} - y)\sigma ^{'}x$

$w = w - \eta \frac{\partial L}{\partial w} = w - \eta (\hat{y} - y)\sigma ^{'}x$

由于 $Sigmoid$ 函数的横纵坐标趋于较大或较小时，函数值趋于平缓，因此大多数情况下几乎为0， $w$ 很难去优化。

第二种情况，当以交叉熵损失作为loss function时：

$\sigma ^{'} = \sigma (1-\sigma )y = \sigma (w^{T}x)$

$L = -yln\hat{y} - (1-y)ln(1-\hat{y})$

$\frac{\partial L}{\partial w} = -y\frac{1}{\hat{y}}\sigma ^{'}x - (1-y)\frac{1}{1-\hat{y}}(-1)\sigma 'x = -\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})} + \frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$

$=\frac{\hat{y}\sigma (1-\sigma )x - y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$ $=\frac{ (\hat{y}-y)\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}$ $=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}$ $=(\hat{y}-y)x$