朴素贝叶斯分类

一.概率相关知识:

1.先验概率:根据以往经验和分析得到的概率;
后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的 大小。
2.举个例子:
首先我想问一个问题,桌子上如果有一块肉喝一瓶醋,你如果吃了一块肉,然后你觉得是酸的,那你觉得肉里加了醋的概率有多大?你说:80%可能性加了醋.OK,你已经进行了一次后验概率的猜测.没错,就这么简单.
这里写图片描述
3.形式化:我们设A为加了醋的概率,B为吃了之后是酸的概率.C为肉变质的概率
这里写图片描述
上式也就是我们经典的贝叶斯公式。

二.贝叶斯决策论:

这里写图片描述
我们的目标时最小化条件风险,误判损失函数可写为:
这里写图片描述
为了使期望风险最小化,则将实例分配到后验概率最大的类中(核心思想)!
贝叶斯决策论是一种生成模型:
这里写图片描述
P(c)可通过各类样本出现的频率进行估计,P(x|c)很难估计。

三.朴素贝叶斯分类器:

不难发现,基于贝叶斯公式来估计P(c|x)的难点在于P(x|c)是所有属性上的联合概率,难以从有限的训练样本中估计得出,朴素贝叶斯分类器采用了“属性条件独立”的假设,基于属性条件独立的假设,有:
这里写图片描述
其中d为属性的数目,xi表示为x在第i个属性上的取值。计算方式如下:
这里写图片描述

四.一个重要问题:

若某个属性在训练集中没有与某个类同时出现过,这样会使连乘的值为0,所以计算概率值时要进行平滑,我们常用拉普拉斯修正,如下:
这里写图片描述

五.概率相关知识的回顾:

概率VS似然:
概率描述了已知参数时的随机变量的输出结果;
似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。

极大似然估计的理解:
看个例子,假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。
这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是P(样本结果|Model)= p^70(1-p)^30.
那么如何求解p呢?不同的p直接导致P(样本结果|Model)的不同,我们的p实际上是有无数多种分布的。
采取的方法是让这个样本结果出现的可能性最大,也就是使得p^70(1-p)^30值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?使得发生的样本出现的可能性最大。这就是最大似然估计的核心。
这是求出的p=70%,与我们前面认为的一致。

常见例子:给定一个正态分布,和一组采样样本,用极大似然估计来求参数μ和拉姆塔(怎么打)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值