1、确保网络稳定收敛的学习率
如前所述, η \eta η越小,算法的运行时间就越长,算法也就记忆了更多过去的数据。因此, η \eta η的倒数反映了LMS算法的记忆容量大小。
η
\eta
η往往需要根据经验选择,且与输入向量的统计特性有关。1996年Hayjin证明,只要学习率
η
\eta
η满足下式,LMS算法就是按方差收敛的。
(1)
其中,
λ
\lambda
λ是输入向量
x
(
n
)
x(n)
x(n)组成的自相关矩阵R的最大特征值。由于
λ
\lambda
λ常常不可知,因此往往使用自相关矩阵R的迹来代替。按定义,矩阵的迹是矩阵主对角先元素之和:
(2)
同时,矩阵的迹又等于矩阵所有特征值之和,因此,一般有
t
r
(
R
)
>
λ
tr(R)>\lambda
tr(R)>λ.只要取
(3)
即可满足条件。按定义,自相关矩阵的主对角线元素就是个输入项向量的均方差,因此,公式又可以写为:
(4)
2、学习率逐渐下降
在感知器学习算法中曾提到,学习率随着学习的进行逐渐下降比始终不变更加合理。在学习的初期,用比较大的学习率保证收敛速率,随着迭代次数增加,减小学习率以保证精度,确保收敛。一种可能的学习率下降方案是:
(5)
在这种方法中,学习率会随着迭代次数的增加较快下降。另一种方法是指数式下降:
(6)
c是一个接近1二小于1的常熟。Darken与Moody于1992年提出搜索——收敛方案,计算公式如下:
(7)
η
\eta
η 0与
τ
\tau
τ均为常量。当迭代次数较小时,
η
\eta
η~=
η
\eta
η 0(约等于),随着迭代次数增加,学习率逐渐下降,公式近似于:
(8)
LMS算法的一个缺点是,它对输入向量自相关矩阵R的条件数敏感。当一个矩阵的条件数比较大时,矩阵就称为病态矩阵,这种矩阵中的元素做微小改变,可能会引起相应线性方程的解的很大变化。