【NNDL 作业二】

习题3-2:在线性空间中,证明一个点x到平面f(x;w) = w^{T}x + b = 0的距离为\frac{|f(x;w)|}{||w||}.证明:设平面内有一点 x^{'},使得 x-x^{'}垂直于此平面

 

 设平面内有一点  x',使得 x-x' 垂直于此平面

又因为 w 垂直于此平面,所以有 x-x' 平行于 w

即:x-x'=kwk为常数)

因此点 x 到平面距离为  |k|‖w‖

又 w^{T}x+b=f(x;w)w^{T}x'+b=0

所以f(x;w)=w^{T}(x-x')

带入kw

f(x;w)=w^{T}kw

两边同时取模:

|f(x;w)|=||w|| |k|||w||          |k|||w||=\frac{f(x;w)}{||w||}

证毕

习题3-5: 在Logistic回归中,是否可以用\hat{y} = \sigma (w^{T}x)去逼近正确的标签 y,并用平方损失(y-\hat{y})^{2}最小化来优化参数 w ?

第一种情况,使用平方损失函数作为激活函数时:

L = \frac{1}{2}(\hat{y} - y)^{2}

\frac{\partial L}{\partial w} = (\hat{y} - y)\sigma ^{'}x

w = w - \eta \frac{\partial L}{\partial w} = w - \eta (\hat{y} - y)\sigma ^{'}x

由于Sigmoid函数的横纵坐标趋于较大或较小时,函数值趋于平缓,因此大多数情况下几乎为0,w很难去优化。

第二种情况,当以交叉熵损失作为损失函数时:

\sigma ^{'} = \sigma (1-\sigma )y = \sigma (w^{T}x)

L = -yln\hat{y} - (1-y)ln(1-\hat{y})

\frac{\partial L}{\partial w} = -y\frac{1}{\hat{y}}\sigma ^{'}x - (1-y)\frac{1}{1-\hat{y}}(-1)\sigma 'x = -\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})} + \frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

=\frac{\hat{y}\sigma (1-\sigma )x - y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}=\frac{ (\hat{y}-y)\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}=(\hat{y}-y)x

当误差大的时候,权重更新快

当误差小的时候,权重更新慢

习题3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

公式3.39

加入正则化:

于是有: 

 更新参数时:

结论:加入正则化后,在更新参数时每次需要减去 2λW ,使得参数不会太大,因此不会造成溢出之类的错误发生。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值