考虑多分类问题,特征为
,类别为
,
有
个取值。
表示样本
属于第
类的概率。
0 贝叶斯后验概率
根据贝叶斯定理,样本
属于第
类的后验概率为:
其中
是第
类的先验概率。假设第
类的样本
服从高斯分布,其密度函数为:
那么log-ratio(对数几率)为:
其中
当log-ratio大于0时,说明
属于类别
的概率大于类别
,反之亦然。
1 LDA
当各类的协方差矩阵相同时:
从而,
于是,log-ratio表达成了
的线性函数,因此也叫线性判别分析。
当各类的协方差矩阵不一样时,
无法消除,log-ratio是
的二次函数,此时又叫做二次判别分析(QDA)。
2 LogitsR
线性判别分析的形式和逻辑斯蒂回归很相似。下面我们再看看逻辑斯蒂回归。多类别逻辑斯蒂回归的一般形式为:
其log-ratio形式为:
3 比较
从形式上看LDA和LogitsR的log-ratio具有相同的形式,但它们其实并不是一样的模型。
至少有以下三点不同:
- 假设不同。LDA需要假设
服从正态分布,LogitsR无此假设。
- 参数估计方式不同。LDA根据样本计算均值和协方差矩阵,然后带入判别式。LogitsR使用极大对数似然估计参数。
- 模型意义不同。LDA属于生成模型,用到样本的先验信息,极大化后验概率,maximizing full log-likelihood。LogitsR属于判别模型,只考虑给定
时的条件概率,maximizing conditional log-likelihood。LogitsR概率等价于每个类别具有相同先验概率时的贝叶斯后验概率。
优缺点比较:
1、LDA不稳健,容易受异常值影响,可以采取一些稳健的均值和协方差估计方法。Sigmoid函数将任意
对应的类别概率压缩到[0,1]内,再使用相对熵损失函数,因此
LogitsR是稳健的。
2、LDA适用于半监督学习。回忆一下没有label的混合高斯分布,可以用EM算法估计出每一类的均值和方差。现在的情况是,有一堆样本,其中部分样本有label,部分样本没有label。我们仍可以用EM算法估计每一类的均值和方差,只不过有label的那部分样本所属类别确定。这其实就是半监督的LDA学习。LogitsR不适用于半监督学习。