NNDL 作业2:第三章课后题

本文探讨了线性空间中点到平面的距离证明,并解释了为何在Logistic回归中不适合使用平方损失函数进行优化。平方损失函数在误差非高斯分布的分类问题中表现不佳,而交叉熵损失函数与Sigmoid激活函数配合能更有效地优化模型。此外,正则化在Softmax回归中的作用是防止参数过大和过拟合。
摘要由CSDN通过智能技术生成

习题3-2 在线性空间中证明一个点x到平面f(x;w)=w^{T}x+b=0的距离为\left | f(x;w) \right |/\left \| w \right \|.

证明:设平面内有一点x'使得x-x^{'}垂直于此平面,又因为w垂直于此平面,所以有x-x^{'}平行于\omegax-x^{'}=kw(k为常数) 

因此点x到平面的距离\left | k \right |\left \| w \right \|

w^{T}x+b=f(x;w)

w^{T}x^{'}+b=0

所以f(x;w)=w^{T}(x-x^{'})

带入kw

f(x;w)=w^{T}kw

两边同时取模:

\left | f(x;w) \right |=\left \| w \right \|\left \| k \right \|\left \| w \right \|

\left \| k \right \|\left \| w \right \|=\frac{f(x;w)}{\left \| w \right \|}

证毕

习题3-5 在Logistic回归中,是否可以用\hat{y}=\sigma (w^{T}x)去逼近正确的标签y,并用平方损失(y-\hat{y})^{2}最小化来优化参数\omega? 

答:从理论上来说,平方损失函数也可以用于分类问题,但不适合。首先,最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉熵在和Softmax激活函数的配合下,能够使得损失值越大导数越大,损失值越小导数越小,这就能加快学习速率。然而若使用平方损失函数,则损失越大导数反而越小,学习速率很慢。

当以平方损失作为loss function时:

L=\frac{1}{2}(\hat{y}-y)^{2}

\frac{\partial L}{\partial w}=(\hat{y}-y)\sigma ^{'}x

w=w-\eta \frac{\partial L}{\partial w}=w-\eta (\hat{y}-y)\sigma ^{'}x

由sigmoid函数图可知,横坐标较小或较大时,sigmoid函数趋于平缓,因此在大多数情况下其导数几乎为0,导致\frac{\partial L}{\partial w}几乎为0,\omega很难去优化。

以 cross entropy 作为 loss function时:

\sigma ^{'}=\sigma .(1-\sigma )y=\sigma (w^{T}x)

L=-yln\hat{y}-(1-y)ln(1-\hat{y})

\frac{\partial L}{\partial w}=-y\frac{1}{\hat{y}}{\sigma }'x-(1-y)\frac{1}{1-\hat{y}}(-1){\sigma }'x

\frac{\partial L}{\partial w}=-\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})}+\frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

\frac{\partial L}{\partial w}=\frac{\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

\frac{\partial L}{\partial w}=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}=(\hat{y}-y)x

可以看到梯度公式中没有{\sigma }'这一项,权重受到误差(y-\hat{y})的影响,所以当误差大的时候,权重更新快,当误差小的时候,权重更新慢。这是一个很好的性质。

所以当使用sigmoid作为激活函数的时候,常用交叉熵损失函数而不是用均方误差损失函数

习题3-6 在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

答:Softmax 回归往往需要使用正则化来约束其参数,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题。

公式3.39:R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}

加入正则化后:R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W

则:

R(w)=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})^{T}log\hat{y}^{(n)}+2\lambda W

更新参数时:

\omega =\omega +\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})^{T}log\hat{y}^{(n)}-2\lambda \omega

加入正则化后,在更新参数时每次需要减去2\lambda \omega,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值