0)GDA要求输入特征x是连续型随机变量;朴素贝叶斯分类方法适用于输入特征x是离散值的情况,主要目的是确定后验概率p(x|y)。
1)朴素贝叶斯模型(Naive Bayes Model)
1.1)朴素贝叶斯假设
1.2)朴素贝叶斯模型的构建——以邮件分类为例
1.3)应用朴素贝叶斯模型分类新邮件
1.4)朴素贝叶斯模型的一些问题
2)拉普拉斯平滑技术(Laplace Smoothing)
3)朴素贝叶斯算法的两类事件模型(多元伯努利事件模型+多项式事件模型,Multi-Variate Bernoulli Event Model and Multinomial Event Model)
3.1)多元伯努利事件模型(multi-variate Bernoulli event model)
3.2)多项式事件模型(Multinomial Event Model)
3.3)朴素贝叶斯模型——多项式事件模型——构建
3.4)朴素贝叶斯模型——多项式事件模型——邮件分类示例
1)朴素贝叶斯模型(Naive Bayes Model)
1.1)朴素贝叶斯假设
假设x中的特征分量xi是相互条件独立的。此假设虽然常常不成立,但其产生的分类效果却很好!
1.2)朴素贝叶斯模型的构建——以邮件分类为例
对于邮件分类,采用最简单的特征描述方法,首先找一部英语词典,将里面的单词全部列出来。然后将每封邮件表示成一个向量,向量中每一维都是字典中的一个词的0/1值,1表示该词在邮件中出现,0表示未出现。如:
假设字典中总共有5000个词,那么x是5000维的。这时候如果要建立多项式分布模型(二项分布的扩展)。
多项式分布(multinomial distribution) 某随机实验如果有k个可能结局A1,A2,…,Ak,它们的概率分布分别是p1,p2,…,pk,那么在N次采样的总结果中,A1出现n1次,A2出现n2次,…,Ak出现nk次的这种事件的出现概率P有下面公式:(Xi代表出现ni次) |