朴素贝叶斯.Laplace平滑.多项式事件模型

本文是关于机器学习中朴素贝叶斯算法的笔记,重点介绍了Laplace平滑和多项式事件模型。通过实例解释了朴素贝叶斯分类器的工作原理,讨论了在文本分类问题中如何使用向量空间模型,并分析了Laplace平滑在解决零概率问题中的作用。此外,还探讨了多项式事件模型与多元伯努利模型的区别。
摘要由CSDN通过智能技术生成

《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。

 

网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html

参考博文:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html(朴素贝叶斯分类)

               http://blog.sina.com.cn/s/blog_8a951ceb0102wbbv.html

 

 

本篇博文涉及课程五:朴素贝叶斯算法

 

本课主要内容有:

(1)朴素贝叶斯算法

(2)Laplace平滑

(3)多项式事件模型

朴素贝叶斯算法(NB)

 

在GDA模型中,特征向量x是连续的实数向量,当x是离散值时,我们就需要采用朴素贝叶斯算法

朴素贝叶斯的思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

朴素贝叶斯算法的应用,最常见的是文本分类问题,例如邮件是否为垃圾邮件。

对于文本分类问题来说,使用向量空间模型(vector space model,VSM)来表示文本

什么是向量空间模型?

首先,我们需要有一个词典,词典的来源可以是现有的词典,也可以是从数据中统计出来的词典,对于每个文本,我们用长度等于词典大小的向量表示,如果文本包含某个词,该词在词典中的索引为index,则表示文本的向量的index出设为1,否则为0。

下面以垃圾邮件分类问题为例进行说明:

将邮件作为输入特征,与已有的词典进行比对,如果出现了该词,则把向量的xi=1,否则xi=0,例如: 
                    

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值