朴素贝叶斯

最新推荐文章于 2017-07-27 10:48:51 发布

muye5

最新推荐文章于 2017-07-27 10:48:51 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签：朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/myue5/article/details/9152393

版权

数据挖掘专栏收录该内容

14 篇文章 0 订阅

订阅专栏

<<统计学习方法>>：朴素贝叶斯

这几个概念一直弄的糊里糊涂的~~~

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法！

贝叶斯定理：P(A|B) = P(B|A) * P(A) / P(B)

特征条件独立是指对于一个样本点X，表示成特征向量<x1, x2, x3..., xn>。

说明样本空间是n维的，每个样本点有n个特征。

下面说怎么用朴素贝叶斯法进行分类：

朴素贝叶斯法是生成模型，就是说它是通过给定的样本集合，学习样本点的分布函数。

然后给一个测试样本，我通过之前学习得到的分布函数来判断这个测试样本是属于那个类别。

给你一堆的样本点，怎么来学习这个分布函数呢？假设这个分布表示成P(X, Y)，这里X是样本点，Y是所属的类别。

那么根据公式P(X, Y) = P(X|Y) * P(Y)，可以通过学习类别Y的先验概率分布函数P(Y)和条件概率分布函数P(X|Y)得到样本分布P(X, Y)。

再进一步，由于之前有特征独立这一假设，所以条件概率可以表示成各个特征的条件概率之积：

P(X|Y) = P(x1|Y) * P(x2|Y) * ...... * P(xn|Y)

那么我们怎么求先验概率P(Y)和条件概率P(X|Y)，有两种方法：

1.极大似然估计

2.贝叶斯估计

先说极大似然估计，就是说估计出来的分布函数要满足当前样本出现的概率最大，其实就是直接做统计：

P(Y) = 类别Y中包含的样本个数 / 总样本数（这里要计算得到各个类别的先验概率）

P(x1|Y) = 类别Y中第一个特征值为x1的样本个数 / 类别Y中总的样本个数（这里要计算第一个特征所有可能的取值，这里就有一个缺点，就是可能在某个类别Y中，第一个特征没有取到某个值，也就是说这个值没有在类别Y中出现过，那么这样得到的类别Y中第一个特征等于该值的条件概率就成了0，这就有问题了，这会影响其他的特征的，因为一旦有一个特征对应的条件概率为0，那么其他特征不管条件概率多大都白费，所以这就引出了一中平滑方法）

鉴于极大似然估计中有条件概率等于0的可能，所以引入了拉普拉斯平滑，这样可以保证所有特征值的条件概率不为0，这就是贝叶斯估计法

平滑的具体公式为：P(x1|Y) = (类别Y中第一个特征值为x1的样本个数 + 平滑因子c) / (类别Y中总的样本数 + T*c)

注意，这里的T为第一个特征所能取到的值的个数，因为只有分母上加了T个c，才能保证对第一个特征所有可能的取值，总的概率加起来等于1。

那么接下来说一个给一个测试样本X，怎么来判断它的类别呢？

方法是arg max{P(Y) * P(X|Y)}

就是取那个在分布P(X, Y)中概率最大的那个Y，但是其实不是这样的，

它是取那个让后验概率P(Y|X)最大的那个Y，虽然这两个公式真正用起来的时候是一样的，但是本质上还是不太一样的。

P(Y|X) = P(X, Y) / P(X) = P(X|Y) * P(Y) / P(X)

主要是对于类别Y所有可能的取值，就是全部的类别，P(X) 都是 SUM{P(X|Y) * P(Y)} ；是个定值。

所以真正进行分类的时候，用的还是上面的分子：P(X, Y)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯

>：朴素贝叶斯这几个概念一直弄的糊里糊涂的~~~朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法！贝叶斯定理：P(A|B) = P(B|A) * P(A) / P(B)特征条件独立是指对于一个样本点X，表示成特征向量。说明样本空间是n维的，每个样本点有n个特征。下面说怎么用朴素贝叶斯法进行分类：朴素贝叶斯法是生成模型，就是说它是通过给定的样本集合，学习样
复制链接

扫一扫

专栏目录

muye5 CSDN认证博客专家 CSDN认证企业博客

码龄14年

20: 原创

111万+: 周排名

159万+: 总排名

5万+: 访问

: 等级

802: 积分

15: 粉丝

18: 获赞

4: 评论

33: 收藏

私信

关注

热门文章

分类专栏

最新评论

Coursera
T_Rer_: 可以问一下网站上的撤课操作吗？我没找到应该在哪里操作。课程不适合我。
关于点到直线距离的理解
-----小: 我表示如果这些理解都是作者自己思考出来的那作者数学应该很不错吧
大规模优化算法 - LBFGS算法
wodesitanfu: 图片都没了，重新写个看看博主

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。