[机器学习] 朴素贝叶斯分类

贝叶斯决策理论

一个数据集,分为两类,其中每个样本的分类我们都已知晓
在这里插入图片描述
一个新的点 ( x , y ) (x, y) (x,y),其分类未知。
按照什么方式来决定将这个点分到一类中呢?我们提出如下规则:

  • 如果 p 1 ( x , y ) > p 2 ( x , y ) p_1(x,y)>p_2(x,y) p1(x,y)>p2(x,y),则 ( x , y ) (x,y) (x,y)为红色( p 1 p_1 p1)一类。
  • 如果 p 2 ( x , y ) > p 1 ( x , y ) p_2(x,y)>p_1(x,y) p2(x,y)>p1(x,y),则 ( x , y ) (x,y) (x,y)为蓝色( p 2 p_2 p2)一类。

贝叶斯决策理论核心思想:选择具有最高概率的决策。

朴素贝叶斯分类

正式定义

  • x = x= x= { a 1 , a 2 , . . . , a m a_1, a_2,...,a_m a1,a2,...,am} 为一个待分类项, a i a_i ai x x x的每一个特征属性
  • 有类别集合 C = C= C= { y 1 , y 2 , . . . , y n y_1, y_2,...,y_n y1,y2,...,yn}
  • 计算 p ( y 1 ∣ x ) , p ( y 2 ∣ x ) , . . . , p ( y n ∣ x ) p(y_1|x),p(y_2|x),...,p(y_n|x) p(y1x),p(y2x),...,p(ynx)
  • 如果 p ( y k ∣ x ) = m a x p(y_k|x)=max p(ykx)=max { p ( y 1 ∣ x ) , p ( y 2 ∣ x ) , . . . , p ( y n ∣ x ) p(y_1|x),p(y_2|x),...,p(y_n|x) p(y1x),p(y2x),...,p(ynx) },则 x ∈ x\in x y k y_k yk

朴素贝叶斯假设:假设待分类项中所有特征属性相互条件独立

在这里插入图片描述
分母对于所有类别为常数,且各特征属性是条件独立的,故有:
在这里插入图片描述
拉普拉斯修正:为避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时要进行“平滑”处理。
在这里插入图片描述
NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单

理论上,NBC模型与其他分类方法相比具有最小的误差率。但事实上并非总是如此,因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响

自然语言讲究上下文,故假设中的相对独立一般不会存在。

但它仍是最常用、应用最广泛的分类算法之一

贝叶斯信念网

一些变量相关,另一些变量则相互独立

朴素贝叶斯是贝叶斯信念网的一个简单特例。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值