朴素贝叶斯分类器

上概率论大家都知道这个大名鼎鼎的贝叶斯公式

$P\left ( A\mid B \right )=\frac{P\left ( B\mid A \right )P\left ( A \right )}{P\left ( B \right )}$  

它是由

$P\left ( A\bigcap B \right )=P\left ( A\mid B \right )P\left ( B \right )=P\left ( B\mid A \right )P\left ( A \right )$

推导过来的。

 

实际中,朴素贝叶斯分类器解决这样的问题:

1.给定了一有标签样本

X={a1,a2,,,am,yi} n个观察对象

2.给定一无标签样本x(只有m个特征,无y),求

$P\left ( y_{i}\mid x \right )=max\left \{ P\left ( y_{1}\mid x \right ),P\left ( y_{2}\mid x \right ),,,P\left ( y_{i}\mid x \right ) \right \}$  

 

用公式去求解

第一步:根据现有样本X,求出每种标签下,每个特征的概率,即$P\left ( a_{j} \mid y_{i}\right )$,共n*m个

 

第二步:

$P\left ( y_{i}\mid x \right )=\frac{P\left ( x\mid y_{i} \right )P\left ( y_{i} \right )}{P\left ( x \right )}$,

又分母都一样,所以分子最大,$P\left ( y_{i}\mid x \right )$最大

所以单独算分子,其中$P\left ( x\mid y_{i} \right )$相当于在yi为条件下,各个特征概率的乘积,表示如下:

$P\left ( x\mid y_{i} \right )P\left ( y_{i} \right )=\left [ P\left ( a_{1}\mid y_{1} \right )P\left ( a_{2}\mid y_{1} \right ),,,P\left ( a_{i}\mid y_{1} \right ) \right ] P\left ( y_{1} \right )\cdot\left [ P\left ( a_{1}\mid y_{2} \right )P\left ( a_{2}\mid y_{2} \right ),,,P\left ( a_{i}\mid y_{2} \right ) \right ] P\left ( y_{2} \right )...=P\left ( y_{i} \right )\prod P\left ( a_{j}\mid y_{i} \right )$

连乘符号后面的部分,用到我们前面算出的n*m个概率

当$P\left ( a_{j}\mid y_{i} \right )=0$,引入Laplace校准平滑

实例:

判断社交账号真假(真实用户、假用户),根据给定的数据集(sample size=10K)选出了三个条目,1.说说数/time,2.好友数/time,3.是否使用真实头像

人工凭经验的将三个条目划分为若干特征

条目1分为a1:≤0.05、a2:0.05< <0.2、a3:≥0.2

条目2分为a4:≤0.1、a5:0.1< <0.8、a6:≥0.8

条目3分为a7:0=否、a8:1=是

每个样本都已经划分了是否为真假用户(此处要求样本的真实、可靠,否则影响最后的判断)

第一步:下面的P值均为样本计算所得:

 

 

第二步:现给定一个无标签样本x(0.1,0.2,0),问该样本是真实用户还是假用户

那么,是真实用户的概率为:P(Yi|X)->>P(Yi)P(X|Yi)=P(Y1)P(a12|y1)P(a22|Y1)P(a31|Y1) 0.89*0.5*0.7*0.2=0.062

假用户的概率为0.1*0.1*0.1*0.1*0.9=0.0009

所以,是真实用户的概率大于假用户的概率。

 

转载于:https://www.cnblogs.com/super-yb/p/11052546.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
朴素贝叶斯分类器(Naive Bayes classifier)是一种常用的概率分类方法,它基于贝叶斯理论和特征独立假设。朴素贝叶斯分类器有着简单高效的特点,在文本分类、垃圾邮件过滤、情感分析等领域都有广泛应用。 朴素贝叶斯分类器的基本原理是利用训练集的特征和对应的分类标签构建生成模型,然后根据测试样本的特征,通过计算后验概率来进行分类预测。具体而言,朴素贝叶斯分类器假设特征之间相互独立,基于此假设,可以通过训练集特征在各个类别下的条件概率来计算样本在不同类别下的后验概率,并选择后验概率最大的类别作为分类结果。 朴素贝叶斯分类器的训练过程包括两个步骤:首先是计算各个类别的先验概率,即每个类别在训练集的出现频率;然后是计算每个特征在各个类别下的条件概率,即给定一个类别时,特征的条件概率。在得到先验概率和条件概率后,可以通过贝叶斯公式计算后验概率。 朴素贝叶斯分类器的优点在于对小规模数据集具有较好的分类性能,且能够处理多类别分类问题。而其缺点则是对于特征之间的相关性较为敏感,当特征之间存在强相关性时,朴素贝叶斯分类器的性能会下降。 总的来说,朴素贝叶斯分类器是一种简单而有效的分类方法,它在许多实际应用现出色。其理论基础扎实,实现相对简单,适用于处理小规模数据集的分类问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值