机器学习-QDA&LDA

前在文章[机器学习-Bayesian概念学习,简书]中介绍了概念学习,即将一个概念与这个概念包含所有实例的集合等同,通过属于这个集合的数据来学习这个集合可能是什么。也就是说,给定属于这个集合C的一些数据D,我们希望估计一个未知的x属于集合C的概率,换个角度看,也就是估计x属于C的概率和x属于C的补集的概率。假如我们考虑多个集合C1,...Ck,则指标1,...,k可以看做label,给定带label的数据D,估计x属于具体某一集合的概率,也就是估计它的label可能是哪个。这样,Bayesian概念学习可以用来处理机器学习中的分类问题。

而估计集合“长什么样子”和估计描述集合的参数是相同的。下面我们不妨设这些参数都是已知的,即省略了给定数据D来学习的过程,因为给高斯模型的参数加先验稍微复杂一点,以后有机会再细说。我们先来研究一下二维高斯模型下的二次判别和线性判别,quadratic discriminant analysis(QDA)&linear discriminant analysis(LDA),关于高斯模型的一些基础可参见我的上一篇文章[数学基础-高斯模型,简书]。


数据服从多维高斯分布

对不同label的占比附加一个先验概率π,则在估计y(x)=c时的后验概率为


From: Murphy

这个式子是Bayesian定理的直接应用,其中x可以取平面上的任意点。我们如果定义x点的label就是使得y(x)=c概率最大的c。根据结果可以将平面分成不同的区域,而不同区域的边界就是使得上式分子相等的x,即为||x-μ_c||_Σc=a||x-μ_e||_Σe,a是常数,这是一个二次方程,故解出来的边界是二次(quadratic)曲线,如下图所示。


From: Murphy

图中的椭圆围成的中心点就是μ,而一个个椭圆就是等高线,黑色的边界就是二次方程的解,椭圆的稀疏不同代表Σ大小不同。

而当所有的Σ_c都相同时,


From: Murphy

概率估计的分子指数项中可以将x^2提出来,即后面一项,剩下前面一项为Ax+a的形式,于是边界是Ax+a=Bx+b的解,即为直线。从之前一幅图的右图中可以看到,橙色的等高圆和绿色的等高圆表示二者的Σ分别有两个相同的特征值,于是它们两个之间的边界线为直线段。同时下面蓝色的椭圆表示Σ特征值不同,于是和橙绿的边界都是曲线。

这就是QDA和LDA命名的由来。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值