问题:在 Softmax 回归的风险函数(公式 (3.39))中,如果加上正则化项会有什么影响?
(1)Softmax回归中使用的𝐶个权重向量是冗余的,所有权重向量都减去一个同样的向量 ,输出结果不变。权重衰减可以解决 softmax 回归的参数冗余所带来的数值问题。其实就是用正则项惩罚参数
(2)避免计算Softmax函数时在数值计算上溢出问题,具体解释如下:
损失函数变成了:
求梯度可得:
更新参数:
由此可以看到,在更新参数时,会减,防止参数过大,防止在数值计算上出现溢出问题。
(3)防止过拟合
特别说明,文章参考了邱锡鹏老师的《神经网络与深度学习》