NNDL 第3章习题

最新推荐文章于 2022-11-29 19:56:29 发布

凉堇

最新推荐文章于 2022-11-29 19:56:29 发布

阅读量349

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57250370/article/details/127038627

版权

3-2 在线性空间中，证明一个点x到 $f\left ( x;\omega \right ) = \omega ^{T}x+b = 0$ 的距离为 $\left | f\left ( x;\omega \right )\right |/\left \| \omega \right \|$

答：设平面有一点 $x_{1}$ 使得 $x-x_{1}$ 垂直于该平面，又 $\omega$ 垂直于该平面，故 $\left ( x-x_{1} \right ) // \omega$ ,得 $\left ( x-x_{1} \right ) = k\omega$ （k为常数），因此点x到平面距离为 $\left | k \right |\left \| \omega \right \|$ 。

又 $f\left ( x;\omega \right ) = \omega ^{T}k\omega$ ， $\omega ^{T}x_{1}+b = 0$

得 $f\left ( x;\omega \right ) = \omega ^{T}\left ( x-x_{1} \right )$ ，将 $x-x_{1} = k\omega$ 带入得 $f\left ( x;\omega \right ) = \omega ^{T}k\omega$

两边同时取模，得 $\left | f\left ( x;\omega \right ) \right | = \left \| \omega \right \|\left | k \right |\left \| \omega \right \|$ ,即 $\left | k \right |\left \| \omega \right \| = \left | f\left ( x;\omega \right ) \right | / \left \| \omega \right \|$ ,证毕

3-5 在Logistic回归中，是否可以用 $\hat{y} = \sigma \left ( \omega _{T}x \right )$ 去逼近正确的标签y，并用平方损失 $(y-\hat y)^2$ 最小化来优化参数w？

在Logistic回归中可以用sigmoid函数去逼近正确的标签y

Sigmoid 函数自身具有连续且单调递增、关于（0，0.5）中心对称、求导非常快速的性质
而logistic回归的损失函数非指数族，认为函数其概率服从伯努利分布，将其写成指数族分布的形式，也就是：

T(y)=yT(y)=y

α(η)=−log(1−ϕ)α(η)=−log(1−ϕ)

b(y)=1

能够推导出sigmoid函数的形式。

在机器学习中，一般要解决的问题是根据x的值对y做预测。用LPM模型的问题是预测的Y可能会超出其实际的（0,1）区间，因此不能用这个模型。

一个直观的解决方式是，构造一个函数g(y)，使g ( y ) ⊂ ( 0 , 1 ) 。一般机器学习讲logistic回归由此会得出结论，需要采用sigmoid函数形式。

其实logistic回归用sigmoid函数就是从广义线性模型推广出来的。

不能用平方损失函数最小化来优化参数w

如果logistic回归的损失函数也定义为平方损失，那么：

其中：𝑖表示第𝑖个样本点𝑧𝑖 = 𝑥𝑖 ∗ 𝑤 + 𝑏,𝜑 （𝑧𝑖 ）表示对𝑖个样本的预测值,𝑦𝑖表示第𝑖个样本的标签值。

将sigmoid函数带入上述非凸函数，有多个极小值。如果采用梯度下降法，会容易陷入局部最优解中。

所以logistic回归一般采用对数损失函数。
习题3-6 在Softmax回归的风险函数（公式（3.9））中，如果加上正则化项会有什么影响？

公式 $R\left ( w \right )=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log \hat{y}^{(n)}+\lambda W^{T}W$ ,加入正则化后：

$R\left ( w \right )=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log \hat{y}^{(n)}+\lambda W^{T}W$ ,

$\frac{\vartheta R(W)}{\vartheta W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2\lambda W$ ,

更新参数时， $W=W+\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda W$

加入正则化后，在更新参数时每次需要减去 2λW ，使得参数不会太大，便不会造成溢出之类的错误发生，同时也会抑制过拟合。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。