数据挖掘经典算法之朴素贝叶斯分类器

数据挖掘经典算法之朴素贝叶斯分类器 naive bayes

1、写在前面的话。

     读研期间做了一些项目(能耗数据的数据挖掘,中国软件杯竞赛项目-基于视频的车辆分析系统,股市开盘价预测),涉及机器学习、数据挖掘、神经网络、群智能控制和图像处理等方面的内容,一直想写这些领域的总结,但是学校的事一直还蛮多,现在是暑假实习,闲来之余,想把我做过和研究过的相关算法和项目总结出来,算是给自己一个总结和交代,,同时和大家分享知识和快乐。最近由于论文的需要,所以在研究了分类器,包括支持向量机、朴素贝叶斯、决策树和随机森林等,所以首先先写这些方面的内容,之后再总结介绍其他方面的内容,内容包括基于人工鱼群神经网络的时间序列预测模型研究(人工鱼群算法改进,神经网络),基于视频的车辆分析系统(低分辨情况下的车牌定位,分割,识别,车辆的识别,方向的判断,涉及opencv,分类器,图像处理,模式识别)。

2、朴素贝叶斯分类器。

      贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概率的情况下,如何完成推理和决策任务。概率推理是与确定性推理相对应的。而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不相关。 naive bayes 作为一种经典的分类器,凭借其优异的分类性能,在文本分类,例如垃圾邮件过滤中的应用等。

      网上关于朴素贝叶斯分类器数学模型的介绍有很多不错的,关于介绍朴素贝叶斯分类器最清楚的是,维基百科http://zh.wikipedia.org/wiki/朴素贝叶斯分类器。上面详细的数学模型的公式推导,还给了性别分类和文本分类的分类模型。
      http://www.codeproject.com/Articles/318126/Naive-Bayes-Classifier,这个链接是对维基百科中的例子进行具体的代码实现,可以供参考。
      我想阐述的是朴素贝叶斯分类器性能分析,包括和其他分类器的比较,他的性能如何呢?下面我结合几篇论文来说明。

3、朴素贝叶斯分类器性能分析

        文献 The Optimality of Naive Bayes中,作者Harry Zhang分析了朴素贝叶斯分类器有优秀分类性能的原因,虽然假设事件之间是条件独立的情况在现实世界中是很少存在的。论文中给出增强贝叶斯分类器模型,他是介于贝叶斯分类器和朴素分类器之间的模型,考虑部分事件之间的依赖关系。 并且对朴素贝叶斯分类器分类器性能好的充分必要条件,具体证明参见论文。

4、朴素贝叶斯分类器性能比较

        文献An Empirical Comparison of Supervised Learning Algorithms 中对监督分类器进行试验对比分析,其中包括 SVMs,neural nets, logistic regression, naive bayes,memory-based learning,  random forests,    decision-trees,bagged trees, boosted trees, 和boosted stumps. 下面的表4给出了具体的分类性能(实验数据可以从康奈尔大学的网站的下载,实验方法参数参见论文),表中的数字表示每种模型在大量样本实验中获得的排名的概率,从图中可以看出朴素贝叶斯分类的分类性能已经被现在很多的分类器超越。






















  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值