贝叶斯文本分类

本文介绍了朴素贝叶斯分类方法在文本分类中的应用,通过一个求婚问题的例子详细解释了如何利用朴素贝叶斯公式进行决策。讨论了统计学基本概念,如条件概率和全概率公式,并提到了在数据溢出问题上的处理方法,如取对数避免数值计算中的溢出。文章还涵盖了数据训练、评估和实际应用,特别是文章自动分类的案例。
摘要由CSDN通过智能技术生成

 

                                                     朴素贝叶斯分类

 

贝叶斯分类

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类

而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法

分类问题综述

对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。

例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;

你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作

分类的描述

从数学角度来说,分类问题可做如下定义:已知集合和,C= y1,y2...yn 和I=x1,x2...xn

确定映射规则y = f(x),使得任意xi有且仅有一个yi,使得成立 y=f(x)成立

其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元

素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。

分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键

朴素贝叶斯分类

贝叶斯公式

换个表达形式

我们要解决的问题是: 在特定特征条件下属于某个类别的概率有多少

例题分析

给定的数据如下:

现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?

转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出嫁或者不嫁的答案!

套用朴素贝叶斯公式


朴素贝叶斯算法的朴素一词解释

那么我只要求得

p(不帅、性格不好、身高矮、不上进|嫁)

p(不帅、性格不好、身高矮、不上进)

p(嫁)

下面我分别求出这几个概率,就得到最终结果。

假设 p(不帅、性格不好、身高矮、不上进|嫁) 

   = p(不帅|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上进|嫁)


这也就是为什么朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独

立,那么这个等式就成立了!

这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。


我们将上面公式整理一下如下:


我们的任务是要求出特定特征下是嫁|不嫁 那个概率更大,对比两个公式分母相同,那只需要计算两个情况的分子

p(嫁)=?

首先我们整理训练数据中,嫁的样本数如下:

则 p(嫁) = 6/12(总样本数) = 1/2

p(性格不好|嫁)= ?统计满足样本数如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值