朴素贝叶斯算法(分类算法)


朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想 真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

      朴素贝叶斯分类的正式定义如下:

      1、设为一个待分类项,而每个a为x的一个特征属性。

      2、有类别集合

      3、计算

      4、如果,则

      那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:

      1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

      2、统计得到在各类别下各个特征属性的条件概率估计。即

      3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

     

      因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

     


转载自朴素贝叶斯算法 (by 张洋)


----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上是摘抄了张洋的博客,昨天又看了Andrew的lecture5 生成学习算法, 又有了一些新的认识,不得不再次钦佩起Andrew条理清晰的课程风格来:


在lecture5 中,首先有必要认识清楚判别学习与生成学习的区别,可以参见之前的一篇文章生成模型与判别模型

“生成式方法(generative methods)是直接基于生成式模型的方法。此类方法假设所有数据都是由一个潜在的模型生成的”——周志华


关于具体的生成模型的例子,Andrew讲了两个: 混合高斯模型和朴素贝叶斯模型(昨天再看之后,感觉比以往清晰了很多,看来温故确实可以知新)

这里就不展开讲了,只提一下朴素贝叶斯之所以说朴素,是因为它的assumption,也就是认为各特征之间是相互独立的;这一个assumption在垃圾邮件分类器中显然不成立(因为两个特征词比如study 和 learn 或者CS229 和 machine learning显然是会有相关关系的),但正如Andrew所说,尽管naive bayes的assumtion是有点朴素了(过分了),但是它的效果却不赖。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值