二、1.1 LDA&QDA 线性判别分析和二次判别分析(w14)

ppt:北师大王宁老师课程ppt

参考资料:​​​​​​R机器学习:分类算法之判别分析LDA,QDA的原理与实现 - 知乎 (zhihu.com)

全称:Linear Discriminant Analysis and Quadratic Discriminant Analysis 线性判别分析和二次判别分析

判别分析有两个作用,一个是降维dimensionality reduction,另一个是分类classifier。就是说这个方法可以将多维数据投射到低维平面,并且还能使得我们的数据类别非常好区分。

方差相等:LDA

不相等:QDA

Optimization for the Boundary of Classes

什么是boundary?

x*分到两类里的概率相等, x*就在边界上,具体而言,分类的含义就是:r

(其实就像是一类错误和二类错误)

分类问题的target:使得一类错误与二类错误之和最小,求微分之后,就会变成:

除了1. 先列式子再求偏导的方式得到等式外,还可以通过2. 将后验概率等同于类边界方程来计算

(算出来的结果是一样的)

LDA for Binary Classification

判别式:通过上面的黄色式子>0 or <0来判断分类

第一项是x的项,第二项与x无关,常数项,所以就是分类边界线性。

QDA for Binary Classification

  • relax the assumption:∑不相等,导致出现二次项

LDA and QDA for Multi-class Classification

  • multiple classes

Estimation for LDA and QDA(与贝叶斯一样,还是MLE)

LDAassume covariance matrices are equal

1. 所以目标表达式会优化为:

此时的Σ:

使用估计协方差矩阵的加权平均值作为LDA中的公共协方差矩阵:其中权重是类的基数。

2. 第 k 类的先验是根据第 k 类的样本量估计的:

:其中 nk 和 n 分别是第 k 个类和总数中的训练实例数

3. 均值:对于高斯分布的均值,可以使用最大似然估计 (MLE) 或矩量法 (MOM) 来估计第 k 类的均值:

QDA:

1. 第 k 个类的协方差矩阵使用 MLE 进行估计:

或者用无偏估计

LDA与QDA有个问题:看决策边界,∑-1需要估计,并且估计不好对结果效果影响很大(所以仅限于低维有用):

解决:高维算不出来,加上一项使其可逆,但是会影响效果。

如何把LDA与QDA拓展到高维?

LDA and QDA are Metric Learning!

  • 假设:LDA+协方差矩阵是单位阵
  • 可计算距离如下:

Thus, the QDA or LDA reduce to simple Euclidean distance from the means of classes if the covariance matrices are all identity matrix and the priors are equal.

因此,如果协方差矩阵都是单位矩阵并且先验相等,则 QDA 或 LDA 会减少到与类均值的简单欧几里得距离

协方差矩阵非单位阵——马氏距离

Relationship with Naive Bayes classifier

  • 一维时:Gaussian naive Bayes and QDA are equivalent
  • 多维时:QDA is more powerful
    • Gaussian naive Bayes is equivalent to QDA where the covariance matrices are di agonal(对角阵时两者相同,意味着贝叶斯其实是QDA的简化), i.e., the off-diagonal of the covariance matrices are ignored.

experiments

High-dimensional consideration

  1. 传统方法:分开估计两个参数,μ和∑
  2. 高维方法(比如lasso):先assume 两者是稀疏化的sparse,然后再估计,从而达到①降低估计误差;②使得∑-1可预测的情况
    • but:A sparse estimation for µk is easy to construct; sparse estimation for Σ−1 is more difficult and computationally expensive.
    • What if we direct assume that βk = Σ−1µk is sparse?(直接一块估计分类系数是稀疏化的,设为β,即只有少数x(x的一些分量)起到作用

参考文献:

Mai Q, Yang Y, Zou H. Multiclass sparse discriminant analysis[J]. Statistica Sinica, 2019, 29(1): 97-111.

case1:还是没有办法解决高维问题:

case2:换了个表达方法,可行,增加了惩罚项(一些矩阵运算)

计算机运算:

第二节上课一点点:

存在最低错误率Bayes error

Q:high-dimensional QDA?

It is more technically involved since we need to give a sparse estimation for 由于我们需要对 Σ −1 k − Σ −1 1 给出一个稀疏估计,因此在技术上涉及更多。

参考论文:

■ Cai T T, Zhang L. A convex optimization approach to high-dimensional sparse quadratic discriminant analysis[J]. The Annals of Statistics, 2021, 49(3): 1537-1568.

■ Jiang B, Wang X, Leng C. A direct approach for sparse quadratic discriminant analysis[J]. The Journal of Machine Learning Research, 2018, 19(1): 1098-1134

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值