机器学习 (四) 贝叶斯分类器原理及实战系统

前言

       前面介绍的k-近邻分类器有其自身优点也有不足,今天我们介绍下从另一个角度进行分类的算法,它是基于概率论为基础的分类,接触的机器学习算法多了之后也会体会到机器学习是集数学、概率论、统计学、数据挖掘、数据结构与算法等于一身的综合学科,重在根据理论基础来设计不同的算法解决现实生活中的问题,本人在实现每个算法之前会把相关概念也介绍一下,有助于大家理解后面的实现过程,也作为自己的一个随笔。

人物

       贝叶斯是一个英国数学家( Thomas Bayes 1702-1761 ) ,生于伦敦,距今有300多年历史,三代人周期可见时间还不太长,假设如果你能时间穿越到300年前你是否能发明概率统计学呢?贝叶斯发明的缘由是为了证明上帝的存在,它发明了概率统计学原理,由此可见他可能是基于逻辑推理悖论来死磕结果才发明了概率论,假设根据已有经验和生活谁又会去思考上帝为什么存在呢?

概率基础

我们先来看一下概率基础知识,以及条件概率的理解,在概率表示方法中,有一种叫做维恩图表示法,如下图:
这里写图片描述

在上图中:
S:S是样本空间,是所有可能事件的总和。
P(A):是样本空间S中A事件发生的概率,维恩图中绿色的部分。
P(B):是样本空间S中B事件发生的概率,维恩图中蓝色的部分。
P(A∩B):是样本空间S中A事件和B事件同时发生的概率,也就是A和B相交的区域。
P(A|B):是条件概率,是B事件已经发生时A事件发生的概率。
       对于条件概率,还有一种更清晰的表示方式叫概率树。下面的概率树表示了条件概率P(A|B)。与维恩图中的P(A∩B)相比,可以发现两者明显的区别。P(A∩B)是事件A和事件B同时发现的情况,因此是两者相交区域的概率。而事件概率P(A|B)是事件B发生时事件A发生的概率。这里有一个先决条件就是P(B)要首先发生。
另一种表示方法叫做数概率,如下:
这里写图片描述

       因为条件概率P(A|B)是在事件B已经发生的情况下,事件A发生的概率,因此P(A|B)可以表示为事件A与B的交集与事件B的比率。
这里写图片描述

原理

       让我们结合一个垃圾文档的分类实例来理解贝叶斯概率分类器是如何工作的,思路是计算给定样本属于各个分类的概率,概率大即样本所属的分类,在求解这一过程中利用到了贝叶斯定理,贝叶斯公式如下:
这里写图片描述
       该公式的含义是在事件B发生的时候事件A发生的概率,在这里事件B即某个样本(向量w表示),A是该样本所属的分类(Ci表示),我们的目的是求样本所属某个分类的概率,我们只要逐一把公式右边的概率求出来即可知道结果,该公式变形为下面形式:
这里写图片描述
       在这里i只有两类 垃圾和非垃圾,i取值为0或1,假设当i=1时
p(c1)表示该文档属于垃圾分类的概率,p(w)表示该待测文档为w向量的概率,根据已经样本可以求出来,p(w|c1)表示分类位垃圾文档时样本为向量w的概率,这里我们要清楚w是由很多单词组成的,这些单词可以表示为w0、w1、w2、w3………………等,到这里就涉及到了“朴素”一词的含义,朴素代表各个事件之间相互独立、互不影响,相当于做成一件事情需要n个小事件一起来完成,根据概率知识独立小事件概率相乘等于一件事件发生的概率,因此 p(

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李龙生的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值