GLA基本定义与解释
GLA通俗解释
GLA算法与辨别性学习算法(例如逻辑斯蒂回归算法)不同,后者是假定p(y)=h(θx),利用最大似然函数求最优可确定θ,之后可进行预测。而GLA是反其道行之,对于某个预测集X,GLA先假定其对应标签y=A,判断y=A的情况下,p(x|y)=?;再假定y=B,判断y=B的情况下,p(x|y)=?,分别对两种情形进行比较
GLA数学原理
GLA模型数学原理为贝叶斯公式及全概率公式。
1、贝叶斯公式:
2、全概率公式:p(x) = p(x|y = 1)p(y = 1) + p(x|y =
0)p(y = 0)
3、另外,我们注意到有以下特性(记为特性一):
GDA(Gaussian discriminant analysis)算法
基本假设
1、y ∼ Bernoulli(φ)
2、p(x|y)服从多元正态分布(分布性质见本博客后方),即有:
x|y = 0 ∼ N (µ0, Σ)
x|y = 0 ∼ N (µ0, Σ)
以分布表示假设1、2,有:
模型推导
1、列出最大似然函数(注意到这里利用了条件概率公式进行了换算):
2、对最大似然函数取max,可算出对应的参数为:
3、有了φ和μ1、μ2,Σ,我们就能知道p(x|y=0)和p(x|y=1)的分布,这样的话我们就可分别画出对应的分布(注意这两个分布的Σ相同),这样对于一个新的预测点X,我们只需要分别计算P1=P(X|Y=0)以及P1=P(X|Y=1),之后比较P1,P2,较大的那个对应的Y即为预测值。
示例图:
多元正态分布的定义及性质
1、概率公式(注意到x,X皆为n维度向量,Σ为n*n协方差矩阵):
2、均值:
3、协方差:
根据Cov(Z) =E[(Z − E[Z])(Z − E[Z])T ]计算可得Cov(X) = Σ