预备知识
1.点到直线的投影均值与协方差:,,分别为第类示例的集合,均值向量,协方差矩阵。样本中心在直线上的投影为,样本的协方差为。
2.矩阵的2-范数:又名欧几里得范数,即向量元素绝对值的平方和再开方,,可以表示矩阵之间的距离。
3.拉格朗日乘数法:对于前面定义中所设的一般目标函数和约束条件组, 应引入辅助函数
称此函数为拉格朗日函数, 其中 ....称为拉格朗乘数。
设上述条件极值问题中的函数 与在在区域 上有连续一阶偏导数.。若 的内点是该条件极值问题的极值点, 且
则对于m 个常数使得为拉格朗日函数的稳定点即它是如下个方程的解。
4.Hessina矩阵:如果的所有二阶导数都存在,则的Hessian矩阵为
补充:当Hessina矩阵为正定矩阵时,可知在该点为极小值。
5.矩阵求导法则:设存在矩阵矩阵及维向量,我们有
补充:(1)(2)
(3)
6.正定矩阵:设A为实对称矩阵,若二次型为正定,即对于任意一组不全为零的实数都有。
补充:当矩阵顺序主子式全部大于0时,可判断该矩阵为正定矩阵。
公式推导
1.对于二分类任务,给定数据集,,,学得的LDA模型为。令,,分别为第类示例的集合,均值向量,协方差矩阵。我们有LDA模型的为:。
证明:为使得样例投影点尽可能接近,我们让同类样例协方差尽可能小,即尽可能小。为使得异类样例投影点尽可能远离,我们让类中心之间的距离尽可能大,即与之间的2-范数尽可能大。则我们得到最大化目标:
我们设类内散度矩阵:
设类间散度矩阵:
则我们有:
由于我们不关注其大小,只关心其方向,通过的长度变换,并不影响其方差,均值的取值,因此,该式可等价为条件极值问题:
我们由拉格朗日乘子法,作拉格朗日函数:,我们对其求导有:
则我们有。由于我们有。由于为常数,因此的方向为,那么我们有,则我们有,成立。由于不关心其大小,只关心其方向,所以其大小可以任意取值,我们取,则有。{该部分推导存在问题(我们对求二阶偏导有:
,,
我们构造的Hessina矩阵:
代入及,显然有为正定矩阵,我们可知为极小值点,又由于仅有一个极小值点可知为最小值点。)}证毕。
2.对于多分类任务,给定数据集,,,学得的LDA模型为。令,,分别为第类示例的集合,均值向量,协方差矩阵。我们有LDA模型的的闭式解为:
的个最大非零广义特征值所对应的特征向量组成的矩阵。
证明:定义,为所有示例的均值向量。定义即每个类别的散度矩阵之和,其中。
则我们有:
我们设为一个投影矩阵,其中为行1列的列向量。我们为了使得同类样例协方差尽可能小,即尽可能小。为使得异类样例投影点尽可能远离,我们让类中心之间的距离尽可能大,即尽可能大。则我们有使得最小即可。
该问题等价于条件极值:
我们使用拉格朗日乘数法,构造拉格朗日方程为。由与,我们对求偏导使值为0有:
于是我们有,则LDA模型的的闭式解的个最大非零广义特征值所对应的特征向量组成的矩阵成立。证毕。