不可小视的贝叶斯(二)

上次介绍了贝叶斯理论的基本知识,接下来介绍剩下的两部分内容,即:贝叶斯分类器和贝叶斯网络。对于这两部分的内容,涉及太多东西,这里讲述的只是一些基础知识,尽可能将我知道的分享给大家,有错误的地方还希望指正。
    3)贝叶斯分类器
    关于该部分内容,主要分为两个部分,即贝叶斯最优分类器(Bayes Optimal Classifier)和朴素贝叶斯分类器(Navie Bayes Classifier)

    (1)贝叶斯最优分类器
    在介绍它之前,先看下面这个例子:
    假设对于给定的数据集D,四种hypothesis的概率分别为:
    不可小视的贝叶斯(二)
    对于新加入的某个实例x,通过四种hypothesis将其判别为正(pos)或负(neg)分别如下:
    不可小视的贝叶斯(二)
    对于上述问题,对于该新实例x而言,其最有可能属于哪一个类别(正或负)呢?
    很明显,如果根据之前我们讲述的MAP来推断,hMAP等于h2,那么x应该为正。然而,如果将所有的假设都考虑进去的话,x被划分为负的概率为0.6,x被划分为正的概率只有0.4。也就是说x为负的概率要大于x为正的概率。问题来了,也就是说最有可能的分类不等于MAP得出的分类。这意味着,仅仅通过运用MAP来解决此类问题不是最佳的解决方案。而根据上述的推理,我们可以知道,通过结合所有hypothesis的概率和通过后验概率加权,我们可以提高对于某个新加入实例最有可能的分类的判别。即:
   不可小视的贝叶斯(二)
    这里p(vj/D)是正确将新实例判别为vj的概率。vj为集合V中某个分类的值。
    贝叶斯最优分类器的过程为计算上述概率的最大值,即:
    不可小视的贝叶斯(二)
    有了上述的理论,我们来重新看一样上述问题。V = {neg, pos},各概率的值如下所示:
    不可小视的贝叶斯(二)
    分别计算判别为正和负的概率,我们得到:
    不可小视的贝叶斯(二)
    进一步,利用贝叶斯最优分类器,我们可以得出:
    不可小视的贝叶斯(二)
    这个结论和我们直观上的结论是一致的,以上过程就是贝叶斯最优分类器的工作过程,它是一个加权的大数分类器,上述例子只是一个简单的分类过程。事实上,贝叶斯最优分类器有些时候是不可用的,因为我们不能以一种有效的方式获得所有可能的类别,从而会导致计算相当复杂。事实上,对于分类器的使用,用的最多的还是一下要介绍的朴素贝叶斯分类器。

    (2)朴素贝叶斯分类器
    分类问题在数据分析和模式识别中非常重要。前面我还没有给出分类的具体定义,但是我想大家对这个应该都不陌生,我们经常会说谁和谁是一类人,物以类聚。也就是说首先类有一定的特性,各个新加入的个体,如果其特性符合这些特这就归为这一类。这只是对现实世界中的一种描述,抽象出来,也就是,分类器即为某个函数f,它根据输入向量x的特征,将其映射到某个输出类别y。这里x隶属的集合X我们称为特征空间。为了理解朴素贝叶斯的概念,首先我们来看一个简单的例子。
    不可小视的贝叶斯(二)
    上图数轴上有两类点,总共有60个,分别为红色和绿色,其中红色20个,绿色有40个。根据已知条件,我们可以很容易得到,绿色和红色点的先验概率为:
    不可小视的贝叶斯(二)
    不可小视的贝叶斯(二)
    假设有一个新加入的点(白色点),如下图所示,那么它最有可能属于哪一类呢?直觉上,我们可以理解为,白色点附近的绿色点和红色点哪个更多,白色点更有可能属于那个类别。为了计算这个似然性,我们以白色点位圆心,画一个圆。
    不可小视的贝叶斯(二)
    通过上图,我们可以计算出似然概率为:
    不可小视的贝叶斯(二)
    圆圈中红色点有3个,绿色点有1个,因此具体的值为:
    不可小视的贝叶斯(二)
    那么通过贝叶斯定理,我们可以得到新加入点被判别为红色点和绿色点的后验概率分别为:
    不可小视的贝叶斯(二)
    最大化后验概率(MAP),我们可以推断,该点最有可能的类别应该为红色,而该结论也正是我们预期的。
    上述例子中,我们用到的其实就是朴素贝叶斯,也许你可能会问,这不过是我们前面提到的MAP,怎么会是朴素贝叶斯呢?事实上,仔细观察计算过程,你会发现,朴素贝叶斯实质上基于一个假定:即对于给定的某个类别标签C,所有属性特征Ai是条件独立的。也就是说朴素贝叶斯分类器能够处理任意数量的相互独立的变量,而不管这些变量时连续的还是离散的。基于这样一个假定,观察概率A1...An等于各个独立变量相互的乘积。即:
    不可小视的贝叶斯(二)
    进一步的我们有:
    不可小视的贝叶斯(二)
    上述过程就是朴素贝叶斯分类器的数学定义。朴素贝叶斯学习方法血药估计两个变量的值,即P(C)和P(Ai/C)。而这两个概率的计算都基于它们在训练集中出现的频率。计算公式如下:
    不可小视的贝叶斯(二)
    这里,n表示训练集中 C = Cj 的数目;nc表示 C = Cj && A = Ai 的数目;p为我们对p(Ai/C)的先验概率估计;m表示等效采样样本的数目,通常它是一个常数,用于决定相对于观察数据,先验概率估计的权值的大小。上述公式二称作m-estimates。在大多数情况下,上述公式一都是一个很好的估计,但是,如果nc非常小时,甚至等于0,那么该概率值就提供了一个非常差的结果,所以为了避免这种情况的发生,才引入了m-estimates。对于该公式,如果没有任何先验知识,我们可以假定p为均匀分布,这样p=1/k,k为所有可能的属性值的数目。当 m = 0 时,m-estimates等效于公式一。m可以等效理解为根据概率p新加入到观察数据中的虚拟样本的数目
    为了说明上述公式二的作用和加深对朴素贝叶斯分类器的理解,我们在看下面这个例子。属性有三个,分别为Color(颜色)、Type(类型)和Origin(产地)。结果为Stolen(被偷)与否。
    不可小视的贝叶斯(二)
    我们的目标是确定一个Red Domestic SUV的类别。根据给出的训练集,我们可以发现,训练集中没有这一个实例项,那么如果根据上述公式一来计算,我们这里的这个先验概率就是0,幸好我们有公式二。我们需要计算各项特征属性的条件概率。即:
    不可小视的贝叶斯(二)
    这里我们,假定m = 3, p = 0.5(因为输出只有两个值,我们假定它们为等概的)。根据给定的训练集,我们可以得到:
    不可小视的贝叶斯(二)
    根据上述公式二,我们可以得到:
    不可小视的贝叶斯(二)
    分别乘以P(Yes)和P(No)的概率,即根据朴素贝叶斯分类器的公式,我们可以得到:
    不可小视的贝叶斯(二)
    不可小视的贝叶斯(二)
    由于P(Yes) < P(No),所以最终我们可以将该Red、SUV和Domestic类别的汽车划分为No。
    通过上述的讲解,我们可以知道朴素贝叶斯分类器基于各输入是相互独立的假定,因为它忽略了输入变量之间可能的依赖性(即相关性),将一个多变量的问题规约为一组单变量的问题

    到这里,关于贝叶斯最优分类器和朴素贝叶斯分类器的内容我也讲完了,值得一提的是,现实中用的比较多的还是朴素贝叶斯分类器,而且为了适应不同的应用场合,朴素贝叶斯分类器衍生出了很多的变体,有兴趣的同胞可以继续深入研究。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值