斯坦福《机器学习》Lesson5感想———2、朴素贝叶斯算法

     朴素贝叶斯算法与上篇中写到到生成学习算法的思想是一致的。它不需要像线性回归等算法一样去拟合各种假设的可能,只需要计算各种假设的概率,然后选择概率最高的那种假设分类类别。其中还添入了一个贝叶斯假定:在给定目标值y时属性值x之间相互独立。这样的分类算法被称为朴素贝叶斯分类器(Naive Bayes classifier)  。

1、朴素贝叶斯算法

    在朴素贝叶斯算法的模型里,给定的训练集为, 可计算。因为贝叶斯假定,可以计算出联合似然概率函数:


最大化联合似然概率函数可得到:


然后我们就可以对新的数据进行预测。预测公式为:


如果x只取两种值,则p(x|y)服从伯努力分布。如果 x取多种值,则p(x|y)服从多项分布。当x的取值是连续的时候,可以将y值区间离散化,再分别对各个区间分类命名为特定值。


2、拉普拉斯平滑

 在给定的训练集中,假设x的取值有k种{1,…,k},所以φi = p(z = i)。在未使用拉普拉斯平滑的情况下,


而当某一个特征属性 x 在训练集中未曾出现过,则

为了避免此种情况的出现,我们使用拉普拉斯平滑。因此可得到:


3、Naive Bayes和Multinomial event model的比较

 在垃圾邮件的分类中,先设定一个垃圾词语字典索引,然后通过对邮件中是否含有垃圾词语字典索引中的词判断一封邮件是垃圾邮件的概率。在Naive Bayes中只需计算每个训练邮件文本中是否含有垃圾词语字典索引中的某一个词来计算垃圾邮件的概率,而在Multinomial event model中需要考虑垃圾字典索引中的某一个词在每个训练邮件文本中出现的次数来计算垃圾邮件的概率。

 例如,一封邮件是“a nip...”,垃圾词语字典索引为{a,....,nip,....}(a为字典中第1个词语,nip为第35000个词语)。所以对于Naive Bayes来说,可表示为如下矩阵(矩阵第1元素为1,第35000个元素也为1)

     

而在Multinomial event model中,表示为。这表示邮件的第1个词语是a,第35000个词语是nip。这样的话,如果邮件中第3个词语是a的话,Naive的表示不变,但是Multinomial event model中的表示会有x3=1。通过这样就可以计算在邮件中每个垃圾字典索引中的词语出现的次数。这样评估的概率比朴素贝叶斯算法的概率更为理想。具体比较如下:



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值