朴素贝叶斯&&Python实现

贝叶斯方法是一套基于与独立的每对特征之间的“天真”假设应用贝叶斯定理监督学习算法。给定类变量和和从属特征矢量X_1通过x_n,贝叶斯定理状态下列关系:
这里写图片描述
使用独立的天真假设
这里写图片描述
所有一世,这种关系简化为
这里写图片描述
既然这里写图片描述是恒定的给定的输入,我们可以使用下面的分类规则:
这里写图片描述
我们可以用最大后验(MAP)估计估计 这里写图片描述这里写图片描述; 前者是那么类的相对频率和 在训练集中。
不同的朴素贝叶斯分类的主要区别由它们做出关于分布的假设这里写图片描述
尽管他们显然过于简单的假设,朴素贝叶斯分类器已经在许多现实世界的情况下,著名的文档分类和垃圾邮件过滤相当奏效。它们需要训练数据的少量估算必要的参数。(理论上的原因朴素贝叶斯效果很好,和在其数据类型是的话,请参见下面的参考资料。)
相比于更复杂的方法朴素贝叶斯学习和分类可以非常快。类条件特征的分布的解耦意味着每个分布可以独立地估计为一维分布。这反过来有助于减轻来自维数灾难引起的问题。
在另一面,虽然朴素贝叶斯被称为一个体面的分类,它被称为是一个坏的估计,所以从概率输出 predict_proba不应太认真对待。

1、 高斯朴素贝叶斯
GaussianNB实现了高斯朴素贝叶斯算法进行分类的特征的可能性被假定为高斯:
这里写图片描述
参数这里写图片描述这里写图片描述 使用最大似然估计。

>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> from sklearn.naive_bayes import GaussianNB
>>> gnb = GaussianNB()
>>> y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)
>>> print("Number of mislabeled points out of a total %d points : %d"
...       % (iris.data.shape[0],(iris.target != y_pred).sum()))
Number of mislabeled points out of a total 150 points : 6

2、多项朴素贝叶斯
MultinomialNB实现了朴素贝叶斯算法multinomially分布式数据,并且是在文本分类变体使用的两种经典朴素贝叶斯之一(其中,数据通常被表示为字矢量计数,尽管TF-IDF载体也是已知的实践中很好地工作) 。该分布通过矢量参数化这里写图片描述用于每个类别y,其中n是的特征的数量(在文本分类,词汇的大小)和这里写图片描述是概率这里写图片描述 特性的一世出现属于类的样品中和。
这里写图片描述
其中,这里写图片描述是的次数i设有显示类的样品中y和 的训练集T,并且这里写图片描述是对类中的所有特征的总数和y。
平滑先验这里写图片描述占学习样本中不存在的功能和防止零概率进一步计算。设置这里写图片描述被称为拉普拉斯平滑,而这里写图片描述被称为期Lidstone平滑。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值