二、1.1 LDA&QDA 线性判别分析和二次判别分析（w14）

lim18719266191

已于 2023-12-04 19:05:02 修改

阅读量374

点赞数

文章标签：算法

于 2023-12-04 17:19:12 首次发布

本文链接：https://blog.csdn.net/lim18719266191/article/details/134786758

版权

ppt：北师大王宁老师课程ppt

参考资料：R机器学习：分类算法之判别分析LDA,QDA的原理与实现 - 知乎 (zhihu.com)

全称：Linear Discriminant Analysis and Quadratic Discriminant Analysis 线性判别分析和二次判别分析

判别分析有两个作用，一个是降维dimensionality reduction，另一个是分类classifier。就是说这个方法可以将多维数据投射到低维平面，并且还能使得我们的数据类别非常好区分。

方差相等：LDA

不相等：QDA

Optimization for the Boundary of Classes

什么是boundary？

x*分到两类里的概率相等， x*就在边界上，具体而言，分类的含义就是：r

（其实就像是一类错误和二类错误）

分类问题的target：使得一类错误与二类错误之和最小，求微分之后，就会变成：

除了1. 先列式子再求偏导的方式得到等式外，还可以通过2. 将后验概率等同于类边界方程来计算

（算出来的结果是一样的）

LDA for Binary Classification

判别式：通过上面的黄色式子>0 or <0来判断分类

第一项是x的项，第二项与x无关，常数项，所以就是分类边界线性。

QDA for Binary Classification

relax the assumption：∑不相等，导致出现二次项

LDA and QDA for Multi-class Classification

multiple classes

Estimation for LDA and QDA（与贝叶斯一样，还是MLE）

LDA：assume covariance matrices are equal

1. 所以目标表达式会优化为：

此时的Σ：

使用估计协方差矩阵的加权平均值作为LDA中的公共协方差矩阵：其中权重是类的基数。

2. 第 k 类的先验是根据第 k 类的样本量估计的：

：其中 nk 和 n 分别是第 k 个类和总数中的训练实例数

3. 均值：对于高斯分布的均值，可以使用最大似然估计（MLE）或矩量法（MOM）来估计第 k 类的均值：

QDA：

1. 第 k 个类的协方差矩阵使用 MLE 进行估计：

或者用无偏估计

LDA与QDA有个问题：看决策边界，∑-1需要估计，并且估计不好对结果效果影响很大（所以仅限于低维有用）：

解决：高维算不出来，加上一项使其可逆，但是会影响效果。

如何把LDA与QDA拓展到高维？

LDA and QDA are Metric Learning!

假设：LDA+协方差矩阵是单位阵
可计算距离如下：

Thus, the QDA or LDA reduce to simple Euclidean distance from the means of classes if the covariance matrices are all identity matrix and the priors are equal.

因此，如果协方差矩阵都是单位矩阵并且先验相等，则 QDA 或 LDA 会减少到与类均值的简单欧几里得距离。

协方差矩阵非单位阵——马氏距离

Relationship with Naive Bayes classifier

一维时：Gaussian naive Bayes and QDA are equivalent
多维时：QDA is more powerful
- Gaussian naive Bayes is equivalent to QDA where the covariance matrices are di agonal（对角阵时两者相同，意味着贝叶斯其实是QDA的简化）, i.e., the off-diagonal of the covariance matrices are ignored.

experiments

High-dimensional consideration

传统方法：分开估计两个参数，μ和∑
高维方法（比如lasso）：先assume 两者是稀疏化的sparse，然后再估计，从而达到①降低估计误差；②使得∑-1可预测的情况
- but：A sparse estimation for µk is easy to construct; sparse estimation for Σ−1 is more difficult and computationally expensive.
- What if we direct assume that βk = Σ−1µk is sparse?（直接一块估计分类系数是稀疏化的，设为β，即只有少数x（x的一些分量）起到作用

参考文献：

Mai Q, Yang Y, Zou H. Multiclass sparse discriminant analysis[J]. Statistica Sinica, 2019, 29(1): 97-111.

case1：还是没有办法解决高维问题：

case2：换了个表达方法，可行，增加了惩罚项（一些矩阵运算）

计算机运算：

第二节上课一点点：

存在最低错误率Bayes error

Q：high-dimensional QDA？

■ It is more technically involved since we need to give a sparse estimation for 由于我们需要对 Σ −1 k − Σ −1 1 给出一个稀疏估计，因此在技术上涉及更多。

参考论文：

■ Cai T T, Zhang L. A convex optimization approach to high-dimensional sparse quadratic discriminant analysis[J]. The Annals of Statistics, 2021, 49(3): 1537-1568.

■ Jiang B, Wang X, Leng C. A direct approach for sparse quadratic discriminant analysis[J]. The Journal of Machine Learning Research, 2018, 19(1): 1098-1134

lim18719266191

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
二、1.1 LDA&QDA 线性判别分析和二次判别分析（w14）

ppt：北师大王宁老师课程ppt全称：Linear Discriminant Analysis and Quadratic Discriminant Analysis 线性判别分析和二次判别分析判别分析有两个作用，一个是降维dimensionality reduction，另一个是分类classifier。就是说这个方法可以将多维数据投射到低维平面，并且还能使得我们的数据类别非常好区分。
复制链接

扫一扫