在Softmax回归的风险函数 R ( w ) = − 1 N ∑ n = 1 N ∑ c = 1 C y ( n ) log y ^ ( n ) R\left( w \right) =-\frac{1}{N}\sum_{n=1}^N{\sum_{c=1}^C{y^{\left( n \right)}\log \widehat{y}^{\left( n \right)}}} R(w)=−N1∑n=1N∑c=1Cy(n)logy (n) 中,如果加上正则化项会有什么影响?
1.减少过拟合风险
正则化项一般通过添加一个惩罚系数来实现,这个惩罚系数会让模型在拟合训练数据的同时最小化模型参数的大小,从而避免出现过拟合。在加入正则化项的情况下,Softmax回归的风险函数会变成:
R
(
w
)
=
−
1
N
∑
n
=
1
N
∑
c
=
1
C
y
(
n
)
log
y
^
(
n
)
+
1
2
λ
∣
∣
w
∣
∣
2
R\left( w \right) =-\frac{1}{N}\sum_{n=1}^N{\sum_{c=1}^C{y^{\left( n \right)}\log \widehat{y}^{\left( n \right)}+\frac{1}{2}\lambda||w||^2}}
R(w)=−N1n=1∑Nc=1∑Cy(n)logy
(n)+21λ∣∣w∣∣2
其中,
λ
\lambda
λ为正则化系数,
w
w
w表示模型的权重参数.这里的正则化项是
l
2
l_2
l2正则化。
加入正则化项后,优化器在优化模型时除了最小化分类误差,还需要最小化正则化项的值。这样做的目的是平衡模型的复杂度和拟合训练数据的能力。正则化项的存在可以减小模型对训练数据的过拟合现象,提高模型的泛化性能。
通过调整正则化参数λ的值,可以控制正则化项对模型的影响程度。较小的λ值会更关注最小化分类误差,模型可能会更加复杂;而较大的λ值会更加平衡分类误差和正则化项,模型可能会更加简单。
2.减少溢出风险
风险函数求
w
w
w偏导:
∂
R
(
W
)
∂
W
=
−
1
N
∑
n
=
1
N
(
y
^
(
n
)
−
y
(
n
)
)
x
(
n
)
+
λ
W
\frac{\partial R\left( \mathbf{W} \right)}{\partial \mathbf{W}}=-\frac{1}{N}\sum_{n=1}^N{\left( \widehat{y}^{\left( n \right)}-y^{\left( n \right)} \right) x^{\left( n \right)}+\lambda \mathbf{W}}
∂W∂R(W)=−N1n=1∑N(y
(n)−y(n))x(n)+λW
更新参数时:
W
=
W
+
α
1
N
∑
n
=
1
N
(
y
^
(
n
)
−
y
(
n
)
)
x
(
n
)
−
λ
W
\mathbf{W}=\mathbf{W}+\alpha \frac{1}{N}\sum_{n=1}^N{\left( \widehat{y}^{\left( n \right)}-y^{\left( n \right)} \right) x^{\left( n \right)}-\lambda \mathbf{W}}
W=W+αN1n=1∑N(y
(n)−y(n))x(n)−λW
加入正则化后,在更新参数时每次需要减去2
λ
W
\lambda W
λW,使得参数不会过大,减少溢出的风险。
总的来说,加入正则化项可以对Softmax回归模型进行正则化,减小过拟合风险,提高模型的泛化性能,同时还能减少溢出的风险。