朴素贝叶斯分类

最新推荐文章于 2019-02-15 10:56:09 发布

猪猪奋斗记

最新推荐文章于 2019-02-15 10:56:09 发布

阅读量669

点赞数 1

分类专栏： Machine Learning 文章标签：朴素贝叶斯分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bigbigship/article/details/51009175

版权

Machine Learning 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

朴素贝叶斯

朴素贝叶斯分类算法是基于两种假设的一种分类算法：

每一个特征同样重要
每一个特征之间相互独立

贝叶斯定理

P (B | A) = P ( A | B ) P ( B ) P ( A )

$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
证明：
条件概率公式

P(A|B)=P(AB)P(B)…式(1) $P(A|B) = \frac{P(AB)}{P(B)} …式(1)$

同理

P(B|A)=P(AB)P(A)…式(2) $P(B|A) = \frac{P(AB)}{P(A)} …式(2)$

联立可以得到

P(B|A)=P(A|B)P(B)P(A) $P(B|A) = \frac{P(A|B)P(B)}{P(A)}$

贝叶斯策略理论

设 $P1(x)$ 表达 $x$ 属于类别一的概率， $P2(x)$ 表达 $x$ 属于类别二的概率：

若P1(x)>P2(x)，那么属于类别一
- 若 $P1(x) <P2(x)$ ，那么属于类别二
- 但是贝叶斯决策论真正进行比较的是 $P(c_1|x)$ 和 $P(c_2|x)$ ；通过贝叶斯定理我们可以得到计算该条件概率的方法因此
  - 若 $P(c_1|x)>P(c_2|x)$ ，那么属于类别 $c_1$
  - 若 $P(c_1|x)<P(c_2|x)$ ，那么属于类别 $c_2$
  贝叶斯分类流程
  
  基于之前的理论我们正式定义一下朴素贝叶斯分类的流程：
  设：
  1. $x=\{a_1,a_2,...a_m\}$ 为一个待分类项， $a_i$ 为其特征属性，一共有 $m$ 个
  2. $C=\{y_1,y_2,...,y_n\}$ 表示类别的集合
  3. 计算 $P(y_1|x),P(y_2|x),...,P(y_n|x)$
  4. 若 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ,则 $x \in y_k$
  贝叶斯分类的关键在于求出 $P(y_1|x),P(y_2|x),...,P(y_n|x)$ ，这也是朴树贝叶斯算法的训练过程。
  我们分别计算：
  
  $P(a_1|y_1),P(a_2|y_1),...,P(a_m|y_1)$
  $P(a_1|y_2),P(a_2|y_2),...,P(a_m|y_2)$
  $...$
  $P(a_1|y_n),P(a_2|y_n),...,P(a_m|y_n)$
  
  基于贝叶斯定理我们可以得到
  
  P(yi|x)=P(x|yi)P(yi)P(x)
  
  分母对于所有类别来说可以看成一个常数，因此我们只需考虑分子，基于先前的假设，所有特征独立可以得到
  
  P(x|yi)=P(a1|yi)P(a2|yi)...P(am|yi)=Πmj=1P(aj|yi)
  
  合并可以得到：
  
  P(x|yi)P(yi)=P(yi)Πmj=1P(aj|yi)
  
  数据处理
  
  若属性的取值为离散值我们很容易计算，就直接统计出训练样本中各个属性在每个样本中出现的频率就可以计算出 $P(a|y)$ 。如果属性的取值为一个连续值的时候我们就要对其进行处理。
  假定其值满足高斯分布:
  
  p(xi|yj)=12π−−√σi,je−(x−μi,j)22σ2i,j
  
  这样我们只用计算出训练样本中类别 yi 中特征 aj 的均值和标准差，带入上式即可。
  在实践中我们常通过取对数的方式来将连乘转化为连加，以避免数值的下溢。
  需要注意的是若某个属性值在训练集中没有与某个类同时出现过，则计算出来的概率值为0,则会将其他属性携带的信息给抹去，因此我们需要用到“拉普拉斯修正”，来进行平滑。
  设 N 表示训练集D中可能的类别数， Ni 表示第 i 个属性可能的取值数
  
  P(c)=|Dc|+1|D|+N
  
  P(xi|c)=|Dc,xi|+1|Dc|+Ni
  
  总结
  
  优点：在数据较少的情况下仍然有效，可以处理多类别问题
  缺点：对于输入数据的准备方式较为敏感
  适用数据类型：标称型数据

猪猪奋斗记

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。