预备知识
1.点到直线的投影均值与协方差:
,
,
分别为第
类示例的集合,均值向量,协方差矩阵。样本中心在直线上的投影为
,样本的协方差为
。
2.矩阵的2-范数:又名欧几里得范数,即向量元素绝对值的平方和再开方,
,
可以表示矩阵之间的距离。
3.拉格朗日乘数法:对于前面定义中所设的一般目标函数和约束条件组, 应引入辅助函数
称此函数为拉格朗日函数, 其中
![]()
....
称为拉格朗乘数。
设上述条件极值问题中的函数
与
在在区域
上有连续一阶偏导数.。若
的内点
是该条件极值问题的极值点, 且
则对于m 个常数
使得
为拉格朗日函数的稳定点即它是如下
个方程的解。
4.Hessina矩阵:如果
的所有二阶导数都存在,则
的Hessian矩阵为
补充:当Hessina矩阵为正定矩阵时,可知
在该点为极小值。
5.矩阵求导法则:设存在矩阵
矩阵
及
维向量
,我们有
补充:(1)
(2)
(3)
6.正定矩阵:设A为实对称矩阵,若二次型
为正定,即对于任意一组不全为零的实数
都有
。
补充:当矩阵顺序主子式全部大于0时,可判断该矩阵为正定矩阵。
公式推导
1.对于二分类任务,给定数据集
,
,
,学得的LDA模型为
。令
,
,
分别为第
类示例的集合,均值向量,协方差矩阵。我们有LDA模型的
为:
。
证明:为使得样例投影点尽可能接近,我们让同类样例协方差尽可能小,即尽可能小。为使得异类样例投影点尽可能远离,我们让类中心之间的距离尽可能大,即
与
之间的2-范数
尽可能大。则我们得到最大化目标:
我们设类内散度矩阵:
设类间散度矩阵:
则我们有:
由于我们不关注其大小,只关心其方向,通过
的长度变换,并不影响其方差,均值的取值,因此,该式可等价为条件极值问题:
我们由拉格朗日乘子法,作拉格朗日函数:,我们对其求导有:
则我们有。由于
我们有
。由于
为常数,因此
的方向为
,那么我们有
,则我们有
,
成立。由于不关心
其大小,只关心其方向,所以其大小可以任意取值,我们取
,则有
。{该部分推导存在问题(我们对
求二阶偏导有:
,
,
我们构造的Hessina矩阵:
代入及
,显然有
为正定矩阵,我们可知
为极小值点,又由于仅有一个极小值点可知为最小值点。)}证毕。
2.对于多分类任务,给定数据集
,
,
,学得的LDA模型为
。令
,
,
分别为第
类示例的集合,均值向量,协方差矩阵。我们有LDA模型的
的闭式解为:
的
个最大非零广义特征值所对应的特征向量组成的矩阵。
证明:定义,
为所有示例的均值向量。定义
即每个类别的散度矩阵之和,其中
。
则我们有:
我们设为一个投影矩阵,其中
为
行1列的列向量。我们为了使得同类样例协方差尽可能小,即
尽可能小。为使得异类样例投影点尽可能远离,我们让类中心之间的距离尽可能大,即
尽可能大。则我们有使得
最小即可。
该问题等价于条件极值:
我们使用拉格朗日乘数法,构造拉格朗日方程为。由
与
,我们对
求偏导使值为0有:
于是我们有,则LDA模型的
的闭式解
的
个最大非零广义特征值所对应的特征向量组成的矩阵成立。证毕。