spark 类别特征_Spark机器学习1:朴素贝叶斯分类

本文介绍了朴素贝叶斯分类的基本原理,并通过一个Spark MLlib的实例展示了如何利用Spark进行分类操作。利用贝叶斯定理计算概率,结合Spark的LabeledPoint数据结构,训练并应用朴素贝叶斯分类器对人类身体特征数据进行性别预测,最后讨论了分类器质量的评价方法。
摘要由CSDN通过智能技术生成

分类

每个人每天都会进行很多次的分类操作。比如,当你看到一个陌生人,你的大脑中的分类器就会根据TA的体貌特征、衣着举止,判断出TA是男是女,是穷是富等等。这就是分类操作。

其中,男人、女人、穷人、富人,这些是类别;那个陌生人,是个待分类项;把一个待分类项映射到一个类别的映射规则,就是一个分类器。

分类算法的任务就是构造出分类器。

贝叶斯定理

贝叶斯定理解决的是这样一个问题:已知在事件B发生的条件下,事件A的发生概率P(A|B),怎样得到事件A发生的条件下,事件B的发生概率 P(B|A)?贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。

P(B|A) = P(A|B) × P(B) / P(A)

举例说明,假设已经有了100个 email,其中:垃圾邮件占比60%,即 P(Spam) = 0.680%的垃圾邮件包含关键字“buy”,即 P(Buy|Spam) = 0.8

20%的垃圾邮件不包含关键字“buy”正常邮件占比40%,即 P(NotSpam) = 0.410%的正常邮件包含关键字“buy”,即 P(Buy|NotSpam) = 0.1

90%的正常邮件不包含关键字“buy”

现在,第101个 email 进来了,它包含关键字“buy”,那么它是垃圾邮件的概率 P(Spam|Buy) 是多少?

P(Spam|Buy) = P(Buy|Spam) × P(Spam) / P(Buy)

P(Buy) = P(Buy|Spam) × P(Spam) 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值