本文原文为《Multiplication Updates for Nonnegative Quadratic Programming》,第一作者为Fei Sha,他是大牛Michael I. Jordan的学生。
由于本文有三十多页且算法收敛性的证明篇幅较长、公式较多在此只简单介绍算法部分。
一、介绍
在神经计算与统计学习问题中,往往会出现非负的约束。比如最大间隔分类器SVM、贝叶斯网络中的密度估计、非负矩阵分解中的降维以及声学中回声的消除技术。在这些优化求解中是很难有直接的一个解析式能一步就算出最优值的,而这时候就会出现很多迭代算法,一步步地让迭代出来的值靠近最真实的解。
比如对于最小化目标函数F(v)的求解中,最简单一般的算法便是加性迭代梯度下降(GD,Gradient Descent):
(1)
然而上式会出现不满足非负限制的情况,这时候我们可以将迭代法则改为:
(2)
也就是说,只要一出现为负的情况,就全部取为0。注意到上俩式中的学习速率要启发式地设置为正数,而其大小会让求解过程的速度变慢(当
太小)甚至会影响到更新能收敛还是在解附近震荡(当
太大)。所以我们称其为启发式参数设置,就是说在各种问题中没有一个统一标准,要根据实际问题设置其大小。