斯坦福大学公开课 :机器学习课程(Andrew Ng)——4、监督学习:Naive Bayes

0)GDA要求输入特征x是连续型随机变量;朴素贝叶斯分类方法适用于输入特征x是离散值的情况主要目的是确定后验概率p(x|y)

1)朴素贝叶斯模型(Naive Bayes Model)

    1.1)朴素贝叶斯假设

    1.2)朴素贝叶斯模型的构建——以邮件分类为例

    1.3)应用朴素贝叶斯模型分类新邮件

    1.4)朴素贝叶斯模型的一些问题

2)拉普拉斯平滑技术(Laplace Smoothing)

3)朴素贝叶斯算法的两类事件模型(多元伯努利事件模型+多项式事件模型,Multi-Variate Bernoulli Event Model and Multinomial Event Model)

    3.1)多元伯努利事件模型(multi-variate Bernoulli event model)

    3.2)多项式事件模型(Multinomial Event Model)

    3.3)朴素贝叶斯模型——多项式事件模型——构建

    3.4)朴素贝叶斯模型——多项式事件模型——邮件分类示例




1)朴素贝叶斯模型(Naive Bayes Model)

    1.1)朴素贝叶斯假设

假设x中的特征分量xi是相互条件独立的。此假设虽然常常不成立,但其产生的分类效果却很好!

    1.2)朴素贝叶斯模型的构建——以邮件分类为例

对于邮件分类,采用最简单的特征描述方法,首先找一部英语词典,将里面的单词全部列出来。然后将每封邮件表示成一个向量,向量中每一维都是字典中的一个词的0/1值,1表示该词在邮件中出现,0表示未出现。如:

clip_image044[8]

假设字典中总共有5000个词,那么x是5000维的。这时候如果要建立多项式分布模型(二项分布的扩展)。 

多项式分布(multinomial distribution)

某随机实验如果有k个可能结局A1,A2,…,Ak,它们的概率分布分别是p1,p2,…,pk,那么在N次采样的总结果中,A1出现n1次,A2出现n2次,…,Ak出现nk次的这种事件的出现概率P有下面公式:(Xi代表出现ni次)

clip_image045[6]

对应到上面的问题上来,把每封邮件当做一次随机试验,那么结果的可能性有 clip_image047[6]种。意味着k= clip_image047[7],pi有
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值