朴素贝叶斯分类

一个简单的例子
朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下:
这里写图片描述
这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把 Y 看做类别,X 看做特征,P( Yk | X ) 就是在已知特征 X 的情况下求属于 Yk 类别的概率,而对 P(Yk|X) 的计算又全部转化到类别 Yk 的特征分布上来。
当特征不唯一是:
这里写图片描述
当假设这些影响结果的特征是独立互不相关的,即做独立性假设:
这里写图片描述

贝叶斯分类器
朴素贝叶斯分类器的表示形式:
这里写图片描述
当特征为 x 时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的,因此计算时可以不考虑分母,即
这里写图片描述
朴素贝叶斯的朴素体现在其对各个条件的独立性假设上,加上独立假设后,大大减少了参数假设空间。
* 在文本分类上的应用*
文本分类的应用很多,比如垃圾邮件和垃圾短信的过滤就是一个2分类问题,新闻分类、文本情感分析等都可以看成是文本分类问题,分类问题由两步组成:训练和预测,要建立一个分类模型,至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上:现在有一篇文档d(Document),判断它属于哪个类别ck,只需要计算文档d属于哪一个类别的概率最大:
这里写图片描述
在分类问题中,我们并不是把所有的特征都用上,对一篇文档d,我们只用其中的部分特征词项

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值