习题3-2 在线性空间中证明一个点x到平面的距离为.
证明:设平面内有一点x'使得垂直于此平面,又因为w垂直于此平面,所以有平行于即(k为常数)
因此点x到平面的距离
又
所以
带入kw
两边同时取模:
证毕
习题3-5 在Logistic回归中,是否可以用去逼近正确的标签y,并用平方损失最小化来优化参数?
答:从理论上来说,平方损失函数也可以用于分类问题,但不适合。首先,最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉熵在和Softmax激活函数的配合下,能够使得损失值越大导数越大,损失值越小导数越小,这就能加快学习速率。然而若使用平方损失函数,则损失越大导数反而越小,学习速率很慢。
当以平方损失作为loss function时:
由sigmoid函数图可知,横坐标较小或较大时,sigmoid函数趋于平缓,因此在大多数情况下其导数几乎为0,导致几乎为0,很难去优化。
以 cross entropy 作为 loss function时:
可以看到梯度公式中没有这一项,权重受到误差的影响,所以当误差大的时候,权重更新快,当误差小的时候,权重更新慢。这是一个很好的性质。
所以当使用sigmoid作为激活函数的时候,常用交叉熵损失函数而不是用均方误差损失函数
习题3-6 在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?
答:Softmax 回归往往需要使用正则化来约束其参数,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题。
公式3.39:
加入正则化后:
则:
更新参数时:
加入正则化后,在更新参数时每次需要减去,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。