机器学习-08 自学笔记 基于sklearn 线性和二次判别分析
线性和二次判别分析
机器学习另一个应用是分类问题,就比如说,一个水果店有苹果、香蕉、梨三种水果,现在新上了苹果梨这种水果,那么苹果梨是属于苹果呢,还是梨呢。用机器学习的算法解决这个问题,就是分类问题。
在分类问题中最重要的是分类器,也就是分类算法。通过分类器,可以确定决策平面,就比如水果店问题,会把平面分成苹果、香蕉、梨三个平面,到时候只需要看,苹果梨落在哪个平面里,它就会被分到该类下。
线性判别分析只能学习线性边界, 而二次判别分析则可以学习二次边界,因此它相对而言更加灵活。
LDA 和 QDA 分类器的数学公式
LDA 和 QDA 都是源于简单的概率模型,这些模型对于每一个类别 k k k 的相关分布 P ( X ∣ y = k ) P(X|y=k) P(X∣y=k)都可以通过贝叶斯定理所获得。
P ( y = k ∣ X ) = P ( X ∣ y = k ) P ( y = k ) P ( X ) = P ( X ∣ y = k ) P ( y = k ) ∑ l P ( X ∣ y = l ) ⋅ P ( y = l ) P(y=k | X) = \frac{P(X | y=k) P(y=k)}{P(X)} = \frac{P(X | y=k) P(y = k)}{ \sum_{l} P(X | y=l) \cdot P(y=l)} P(y=k∣X)=P(X)P(X∣y=k)P(y=k)=∑lP(X∣y=l)⋅P(y=l)P(X∣y=k)P(y=k)
对于线性以及二次判别分析, P(X|y) 被建模成密度多变量高斯分布:
p ( X ∣ y = k ) = 1 ( 2 π ) n ∣ Σ k ∣ 1 / 2 exp ( − 1 2 ( X − μ k ) t Σ k − 1 ( X − μ k ) ) p(X | y=k) = \frac{1}{(2\pi)^n |\Sigma_k|^{1/2}}\exp\left(-\frac{1}{2} (X-\mu_k)^t \Sigma_k^{-1} (X-\mu_k)\right) p(X∣y=k)=