朴素贝叶斯法

doulinxi115413

于 2018-05-21 09:20:57 发布

阅读量346

点赞数

分类专栏： machain_learning

machain_learning 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说，朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。

思想

1)输入空间:X∈Rn 为n 维向量空间的集合。输出空间为分类标记空间 Y=c1,c2...ck。
训练集

T = (x 1, y 1), (x 2, y 2) . . . (x N, y N)

是由独立同分布的概率函数 p(X,Y)p(X,Y) 产生的。这里 xk表示样本数据，其含有xk表示样本数据，其含有 n 个特征，表示为x1k...xnk个特征，表示为xk1...xkn 。并且这些特征是条件概率分布独立。
也就是：
这里写图片描述

这里写图片描述

2)朴素贝叶斯法分类标记：对于待测试的输入x，计算其在不同的类别下发生的概率。也即是计算p(Y=ck|x)，然后根据概率的大小，把x分到相应的类别中。那么

p (Y = c k | x) = p ( x | Y = c k ) p ( Y = c k ) \sum k p ( x | Y = c k ) p ( Y = c k )

也就是有如下公式：

这里写图片描述

等式左边我们没法计算。朴素贝叶斯法就是计算等式右边的值。对于不同的类别 ckck ，分母是 p(x)p(x) 的全概率公式，是一个常数。所以说，我们只计算分子的值就好了。

3)计算子的值：其中，p(Y=ck)，由训练数据的类别标签，可以直接计算。p(xj|Y=ck)=p(xj,ck)p(Y=ck)，利用条件概率进行计算。

三：算法

这里写图片描述

朴素贝叶斯的主要优点有：

　　　　1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

　　　　2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。

　　　　3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

　　　　朴素贝叶斯的主要缺点有：　　　

　　　　1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

　　　　2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

　　　　3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

　　　　4）对输入数据的表达形式很敏感。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

doulinxi115413 CSDN认证博客专家 CSDN认证企业博客

码龄7年

11: 原创

24万+: 周排名

35万+: 总排名

9万+: 访问

: 等级

1068: 积分

23: 粉丝

24: 获赞

7: 评论

142: 收藏

私信

关注

分类专栏

最新评论

分层聚类（hierarchical clustering）
weixin_67169397: 在Hierarchical clustering 里为什么不简单地用两个 cluster 的中心点的距离作为这两个 cluster 的 linkage?
Pandas语法大全
东方初白: 良心作者
神经网络简单实例
xl00000: 若用神经网络预测某有机物的沸点，那个y值应该怎么设置必须要弄成0 或1 吗
k-fold cross validation（k-折叠交叉验证）,python pandas （ix & iloc &loc）的区别
AmorFatiall 回复一一狗熊的尾巴: [code=python] Traceback (most recent call last): 再请教一个问题，请问如下报错是怎么回事呢？ File "D:/pycharm/tyd-data-analysis/titanic.py", line 183, in <module> for train, test in kf: TypeError: 'KFold' object is not iterable 代码： kf = KFold(n_splits=3, shuffle=False, random_state=1) predictions = [] for train, test in kf: train_target = titanic["Survived"].iloc[train] full_test_predictions = [] [/code]
k-fold cross validation（k-折叠交叉验证）,python pandas （ix & iloc &loc）的区别
一一狗熊的尾巴回复 AmorFatiall: 好像最新的不需要写n_folds了直接上数字

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。