spark 类别特征_Spark机器学习1：朴素贝叶斯分类

最新推荐文章于 2022-02-26 02:50:12 发布

weixin_39728221

最新推荐文章于 2022-02-26 02:50:12 发布

阅读量259

点赞数

文章标签： spark 类别特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39728221/article/details/111976384

版权

本文介绍了朴素贝叶斯分类的基本原理，并通过一个Spark MLlib的实例展示了如何利用Spark进行分类操作。利用贝叶斯定理计算概率，结合Spark的LabeledPoint数据结构，训练并应用朴素贝叶斯分类器对人类身体特征数据进行性别预测，最后讨论了分类器质量的评价方法。

摘要由CSDN通过智能技术生成

分类

每个人每天都会进行很多次的分类操作。比如，当你看到一个陌生人，你的大脑中的分类器就会根据TA的体貌特征、衣着举止，判断出TA是男是女，是穷是富等等。这就是分类操作。

其中，男人、女人、穷人、富人，这些是类别；那个陌生人，是个待分类项；把一个待分类项映射到一个类别的映射规则，就是一个分类器。

分类算法的任务就是构造出分类器。

贝叶斯定理

贝叶斯定理解决的是这样一个问题：已知在事件B发生的条件下，事件A的发生概率P(A|B)，怎样得到事件A发生的条件下，事件B的发生概率 P(B|A)？贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。

P(B|A) = P(A|B) × P(B) / P(A)

举例说明，假设已经有了100个 email，其中：垃圾邮件占比60%，即 P(Spam) = 0.680%的垃圾邮件包含关键字“buy”，即 P(Buy|Spam) = 0.8

20%的垃圾邮件不包含关键字“buy”正常邮件占比40%，即 P(NotSpam) = 0.410%的正常邮件包含关键字“buy”，即 P(Buy|NotSpam) = 0.1

90%的正常邮件不包含关键字“buy”

现在，第101个 email 进来了，它包含关键字“buy”，那么它是垃圾邮件的概率 P(Spam|Buy) 是多少？

P(Spam|Buy) = P(Buy|Spam) × P(Spam) / P(Buy)

P(Buy) = P(Buy|Spam) × P(Spam)

最低0.47元/天解锁文章

weixin_39728221

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。