SVM学习前的数学预热

写这篇博客之前,不知道该起个什么名字,因为我想学习SVM的知识,以便和前一篇博客有衔接,但是这篇文章里面实际上并没有多少是介绍SVM的,反而有一点是介绍MLC的,而且MLC介绍的也不深入。权且叫做学习SVM前的数学预热吧。

        废话少说,进入正题。

       

条件概率:

设A,B是两个事件,且P(A)>0,称


为在事件A发生的条件下事件B发生的条件概率


可以形象地理解为图中阴影区AB占A的面积的比例。

在SVM或者MLC等分类方法的学习过程中经常碰到先验概率后验概率两个概念,为了理解这两个概念,则首先要知道全概率公式贝叶斯(Bayes)公式(看到贝叶斯公式,就有一种很熟悉的感觉,其实它就一直躺在我们的数学课本中,只不过把它忘记了)。

在介绍全概率公式个贝叶斯公式之前,首先要介绍样本空间的划分的定义。

定义:设S为试验E的样本空间,B1,B2,…,Bn为E的一组事件,若事件满足:

1) BiBj=Ø,i≠j,  i,j=1,2,3,…,n

2) B1∪B2∪…∪Bn=S

则成B1,B2,…,Bn为样本空间S的一个划分


那么,我们在此基础上引出全概率公式的定义:

假设A为试验E的事件,B1,B2,…,Bn为样本空间S的一个划分,且P(Bi)>0,则:

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+ P(A|Bn)P(Bn)

全概率公式。


为了便于理解,下图中的红圈代表事件A,矩形代表样本空间S。根据条件概率的定义可以知道, 上式中的P(A|Bi)P(Bi)可以理解为根据事件A占Bi的比例来求A与Bi公共部分的“面积”。上式全部加起来就是事件A在样本空间中占的“面积”。


对应的,贝叶斯公式则为:


那么,如何形象地理解贝叶斯公式呢?还是以上图为例。分子部分可以理解为根据事件A占Bi的比例来求A与Bi公共部分的“面积”。分母部分则为红色圆所占的“面积”。而P(Bi|A)则可理解为在圆中,Bi的面积所占的比例。

现在,结合一个数学课本上的例子阐明先验概率后验概率的定义。

例子:对以往的数据分析结果表明,当机器调整得良好时,产品的合格率为98%,而机器发生故障时,其产品的合格率为55%。机器每天早上启动时,其调整良好的概率为95%,试求已知某日早上第一件产品是合格时,机器调整良好的概率是多少?

解: 设A为事件“产品合格”,B为事件“机器调整良好”。已知P(A|B)=0.98, ,P(B)=0.95, ,所需求的概率为P(B|A),由贝叶斯公式:


上面题中由以往数据分析得到的机器良好概率0.95为先验概率,而0.97是在生产第一件产品之后得到的修正概率,即为后验概率

现在,结合MLC来说明条件概率以及先验概率的简单用途[W用1] 。假设影像只有一个波段,如果A类地物有30个像素作为训练样本,B类地物也有30个像素作为训练样本。(不同类型地物选用相同数量的像素作为训练样本),像元灰度值在0-255之间。

正态分布概率密度函数的确定取决于期望和方差。这里我们用训练样本像元灰度值的期望和方差作为这类地物灰度值的概率密度函数的期望和方差。

条件概率的公式为 p(y|x)=(p(x|y)*p(y))/p(x)  (1)

这里,x代表像元灰度值,y代表像元类型,比如p(A|100)=0.3,p(B|100)=0.7,当灰度值为100时,像元为A类地物的概率为0.3,当灰度值为100时,像元为B类地物的概率为0.7.

p(x|y)由样本值获得,见概率密度分布图。p(y)为先验概率,指某种地物类型在整体中的比例(一般取平均,两类地物的时候为1/2,三类地物的时候为1/3)。p(x)为像素灰度取值的概率,当像元在0-255之间取值的时候,p(x)为1/256,这两个都是确定项。因此p(y|x)取决于p(x|y),后者可由概率密度分布曲线获得(根据概率密度分布曲线,如何获得P(x|y)?,后面再解答[W用2] 

“最大”体现在,当x的取值确定后,对应地物类型y的概率p(y|x)最大时,就归为哪种地物。

1>当波段数大于等于2的时候,x为一个矢量,比如x=(100,150,50),p(x|y)是条件联合概率密度。

2>由于地物未必是平均分配的,可以对公式(1)进行迭代计算,将第一次计算的结果p(y1)作为第二次的先验概率。

3>当影像数据服从正态分布或联合正态分布的时候,最大似然法是最好的;但是如果数据不服从正态分布,这种方法未必合适。

至此,对MLC的原理应该有一个简单的了解。但是,在遥感影像分类中,往往是多个波段参与分类,那么我们在进一步介绍MLC之前,还得继续补充一点数学知识。


 [W用1]参考博客

http://blog.sina.com.cn/s/blog_51d77e620100s1tc.html

 [W用2]解答该问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
支持向量机(Support Vector Machine, SVM)是一种常用于机器学习中的分类算法。其数学原理可以总结为以下几点: 1. 定义训练数据和标签:在SVM算法中,我们需要定义训练数据集的位置(xi)和对应的标签(yi)。这里的训练数据是指用于训练模型的输入样本,而标签是指每个训练样本所属的类别。 2. 线性可分思路:SVM算法的基本思想是将训练数据映射到一个高维空间,在这个空间中找到一个最优的超平面,使得不同类别的样本尽可能地分开。这个最优的超平面被称为分割超平面。 3. 支持向量和间隔:在SVM算法中,支持向量是离分割超平面最近的训练样本。支持向量的存在决定了分割超平面的位置和方向。而间隔是指分割超平面到最近的支持向量之间的距离。 4. 松弛变量:为了处理线性不可分的情况,SVM引入了松弛变量,允许一些样本距离分割超平面有一定的误差。这样可以避免这些样本对模型学习的影响。 5. 核函数:SVM算法可以通过使用核函数来实现非线性分类。核函数的作用是将低维输入空间映射到高维特征空间,从而使得原本线性不可分的样本在高维空间中线性可分。 6. 多分类问题:虽然SVM最初是用于二分类问题的,但也可以扩展到多分类问题。常用的方法包括一对一(OvO)和一对多(OvR)策略,通过多个二分类模型的组合来实现多分类。 总结起来,支持向量机算法利用训练数据和标签定义模型,通过找到一个最优的分割超平面来实现分类。它能够解决小样本情况下的机器学习问题,并通过核函数处理非线性分类。然而,SVM算法也存在一些缺点,比如对大规模训练样本的效率较低,对多分类问题的解决效果不理想,并且需要进行参数调优。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值