习题3-2
取平面中任意一点做向量,其中点到平面的距离为向量在平面法向量上的投影,,为与的夹角()
因为在平面内,所以有
带入d中得
习题3-5
可以用,但不太适用。最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉嫡在和Softmax激活函数的配合下,能够使得损失值越大导数越大,损失值越小导数越小,这就能加快学习速率。
然而若使用平方损失函数,则损失越大导数反而越小,学习速率很慢。在分类我们上我们往往只关注模型对数据的真实类别的预测概率而不关注对其他类别的预测概率。所以对分类问题来说,平方损失函数不太适用。
习题3-6
加上正则化后
的更新公式为
在每次更新参数中都要减去,使得新的参数不会太大,也不会造成溢出的错误发生,抑制了过拟合的发生。