贝叶斯分类器

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

提示:这里为补充知识:

条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

联合概率:可以简单的理解为事件A与事件B都发生的概率,记为P(AB)或P(A, B)。

此处就有 P(A, B) = P(A|B) * P(B)

通过图像理解
在这里插入图片描述
全概率:如果事件B1,B2,B3,…,Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有:P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + … + P(A|Bn)*P(Bn)
在这里插入图片描述
分母上是各个部分想加起来最终为P(A)的概率。

先验概率:即在事情发生之前事情发生的概率。是根据以前的经验和分析得到的概率。
例如:北京的春天是少雨的。

在这里插入图片描述

基于先验的决策,局限性很大:
总是做出同样预测;如果先验概率是均匀的,则效果不佳;无法利用更多信息。

特征:每个样本独有的观测的变量。
特征空间:进行观测值采用的空间。

后验概率:事情发生了,事情发生很多原因,判断事情发生时哪个原因引起的概率。给定观测向量x,某个特定类别的概率p(y|x)
(p(y|x)在给定观测向量x的情况下,发生情况的概率是多少)
比如:上学迟到,可能是自行车坏了,起床晚了两个原因。计算一下哪一个原因引起的概率。


以下是本篇文章正文内容:

一、朴素贝叶斯法的学习与分类

1.公式

贝叶斯公式
在这里插入图片描述
可以根据前部补充的公式进行理解


2.风险与损失

最大后验概率(MAP):我们希望选择最大化后验概率的类别作为预测结果。
在这里插入图片描述

风险:犯错的概率。

错误的分类会带来损失,不同的错误带来的损失不同。
犯错的概率:
在这里插入图片描述
较小的值是我们会犯错的风险。

条件风险(期望损失)

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3.基本方法

在这里插入图片描述
Y的类别有K个,每个样本X有n个维度。
对于在这里插入图片描述
我的理解是:假设是四维,每个维度上三个取值,那么可能的取值是3X3X3X3
现在是类别K个。就在前面乘以K。
指数级别参数不利于有的计算
朴素贝叶斯,就是牺牲了分类的准确性,做了条件独立性假设。对于向量x,每一个维度之间都是条件独立的。即假设p(x1,x2,x3)=p(x1)p(x2)p(x3)
归纳则为:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
对于上面的理解
在这里插入图片描述

二、朴素贝叶斯法的参数估计

1.极大似然估计

对指示函数的解释:
在这里插入图片描述

在这里插入图片描述

2.学习与分类算法

只要理解前面的,下面的计算实例就可以完全看懂
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.优缺点

优点:
1.有稳定的分类效率;
2.算法简单,对缺失数据不太敏感,常用于文本分类
3.对小规模数据表现好,能处理多分类任务,适合增量式训练

缺点:
1) 理论上,朴素贝叶斯模型与其余分类方法相比具备最小的偏差率。可是实际上并不是老是如此,这是由于朴素贝叶斯模型给定输出类别的状况下,假设属性之间相互独立,这个假设在实际应用中每每是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果很差。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法经过考虑部分关联性适度改进。
2)须要知道先验几率,且先验几率不少时候取决于假设,假设的模型能够有不少种,所以在某些时候会因为假设的先验模型的缘由致使预测效果不佳。
3)因为咱们是经过先验和数据来决定后验的几率从而决定分类,因此分类决策存在必定的错误率。
4)对输入数据的表达形式很敏感。


总结

以上就是对贝叶斯分类器的学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值