《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。
网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html
参考博文:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html(朴素贝叶斯分类)
http://blog.sina.com.cn/s/blog_8a951ceb0102wbbv.html
本篇博文涉及课程五:朴素贝叶斯算法
本课主要内容有:
(1)朴素贝叶斯算法
(2)Laplace平滑
(3)多项式事件模型
朴素贝叶斯算法(NB)
在GDA模型中,特征向量x是连续的实数向量,当x是离散值时,我们就需要采用朴素贝叶斯算法。
朴素贝叶斯的思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯算法的应用,最常见的是文本分类问题,例如邮件是否为垃圾邮件。
对于文本分类问题来说,使用向量空间模型(vector space model,VSM)来表示文本。
什么是向量空间模型?
首先,我们需要有一个词典,词典的来源可以是现有的词典,也可以是从数据中统计出来的词典,对于每个文本,我们用长度等于词典大小的向量表示,如果文本包含某个词,该词在词典中的索引为index,则表示文本的向量的index出设为1,否则为0。
下面以垃圾邮件分类问题为例进行说明:
将邮件作为输入特征,与已有的词典进行比对,如果出现了该词,则把向量的xi=1,否则xi=0,例如: