朴素贝叶斯分类器

背景

算是机器学习比较经典的算法中之一了,刚开始接触机器学习的时候就有耳闻,当时看了看,看不懂,现在回过头来渐入佳境,写个博客mark一下。

贝叶斯定理

这里写图片描述
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。
按照乘法法则:

P(AB)=P(A)P(B|A)=P(B)P(A|B)

如上公式也可变形为:
P(B|A)=P(A|B)P(B)P(A)


举个栗子:

小明的择偶观,下面这个表格是小明对5个不同的妹子的态度。

罩杯风格小明的态度
A清纯不喜欢
A呆萌不喜欢
C性感喜欢
C清纯喜欢
D性感喜欢

那么现在问题来了,假如又来个D罩杯清纯风格的妹子(话说D罩杯还能是清纯风格么。。。),小明喜欢这个妹子的概率是多少呢?即求:

P(|(D×))

由上面的贝叶斯定理:
P(|(D×))=P((D×)|)P()P(D×)

假设D罩杯和清纯是相互独立的事件:
P(|(D×))=P(D|)P(|)P()P(D)P()=13×13×0.60.2×0.4=56

大概是83.33%左右,小明会喜欢这个妹子,概率还是挺高的。

朴素贝叶斯分类器

上面那个例子就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。用更学术的语言来阐述一下:某一个体有n个特征: F1,F2,F3,...,Fn ,有m个类别: C1,C2,C3,...,Cm 。我们要给某个个体分类,就是求

max:P(Ci|(F1×F2...×Fn))i=1,2,3,...m

根据贝叶斯定理可得:
P(Ci|(F1×F2...×Fn))=P((F1×F2...×Fn)|Ci)P(Ci)P(F1×F2...×Fn)

P(F1×F2...×Fn) 对每个分类而言都是相等的,问题转换成了求 P((F1×F2...×Fn)|Ci)P(Ci) 的最大值。假设这些特征之间相互独立,问题又变成了求 P(F1|Ci)P(F2|Ci)...P(Fn|Ci)P(Ci) 的最大值,这些值都是可以通过训练数据得到的。

朴素贝叶斯分类器(Naive Bayes classifier)是一种常用的概率分类方法,它基于贝叶斯理论和特征独立假设。朴素贝叶斯分类器有着简单高效的特点,在文本分类、垃圾邮件过滤、情感分析等领域都有广泛应用。 朴素贝叶斯分类器的基本原理是利用训练集的特征和对应的分类标签构建生成模型,然后根据测试样本的特征,通过计算后验概率来进行分类预测。具体而言,朴素贝叶斯分类器假设特征之间相互独立,基于此假设,可以通过训练集中特征在各个类别下的条件概率来计算样本在不同类别下的后验概率,并选择后验概率最大的类别作为分类结果。 朴素贝叶斯分类器的训练过程包括两个步骤:首先是计算各个类别的先验概率,即每个类别在训练集中的出现频率;然后是计算每个特征在各个类别下的条件概率,即给定一个类别时,特征的条件概率。在得到先验概率和条件概率后,可以通过贝叶斯公式计算后验概率。 朴素贝叶斯分类器的优点在于对小规模数据集具有较好的分类性能,且能够处理多类别分类问题。而其缺点则是对于特征之间的相关性较为敏感,当特征之间存在强相关性时,朴素贝叶斯分类器的性能会下降。 总的来说,朴素贝叶斯分类器是一种简单而有效的分类方法,它在许多实际应用中表现出色。其理论基础扎实,实现相对简单,适用于处理小规模数据集的分类问题。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值