数据挖掘十大算法——Naive Bayes

最新推荐文章于 2024-06-29 18:54:38 发布

景语

最新推荐文章于 2024-06-29 18:54:38 发布

阅读量2.5k

点赞数 2

分类专栏：数据结构与算法文章标签：数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jmy5945hh/article/details/47439167

版权

本文介绍了朴素贝叶斯算法，包括其基本原理、特点、应用场景及变种，如拉普拉斯平滑和逻辑回归。文章通过实例展示了如何对连续数据进行离散化并进行分类决策。

摘要由CSDN通过智能技术生成

简介

Naive和Bayes

Naive：假定向量中的所有特征是相互独立的
Bayes： Bayes

面向的问题

NB主要用于解决有监督分类问题。相比于其他模型，其具备简单（不需要复杂的迭代式参数估计，由此方便处理大数据）、可解释性强（生成模型）、效果佳的特点。

目标

针对二分类问题，利用训练集数据学习一个判断阈值α，对于新来的数据做判定，大于α的数据属于正类，小于α的数据属于负类。有监督分类中存在两大流派 diagnostic paradigm 和 sampling paradigm ，前者注重于发现类间的区别，后者注重于发现类本身的分布形式，NB兼而有之。

算法描述

从sampling paradigm角度出发，定义 $P(i|x)$ 为样本 $x=(x_1,x_2...x_p)$ 属于类别 i 的概率； $f(x|i)$ 为条件为 i 类样本的分布； $P(i)$ 为在没有任何已知数据情况下，样本属于 i 类的先验概率； $f(x)$ 是样本的总体分布，有 $f(x)=f(x|1)P(1)+f(x|0)P(0)$ 。显然， $P(i|x)\in[0,1]$ 就是我们要找的阈值计算公式，一个典型的情况是设置阈值为 0.5。

由Bayes公式，

P (i | x) = f ( x | i ) P ( i ) f ( x )

$P(i|x)=\dfrac{f(x|i)P(i)}{f(x)}$

P(i) $P(i)$ 是类别先验概率，很好估计，

f(x) $f(x)$ 在所有样本上一致，因此可以忽略。那么问题就是怎么求

f(x|i) $f(x|i)$ 。根据朴素性假设

f(

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘十大算法——Naive Bayes

简介Naive和BayesNaive：假定向量中的所有特征是相互独立的 Bayes：面向的问题NB主要用于解决有监督分类问题。相比于其他模型，其具备简单（不需要复杂的迭代式参数估计，由此方便处理大数据）、可解释性强（生成模型）、效果佳的特点。目标针对二分类问题，利用训练集数据学习一个判断阈值α，对于新来的数据做判定，大于α的数据属于正类，小于α的数据属于负类。有监督分类中存在两大流派 diagno
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。