朴素贝叶斯分类
贝叶斯分类
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类
而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法
分类问题综述
对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。
例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;
你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作
分类的描述
从数学角度来说,分类问题可做如下定义:已知集合和,C= y1,y2...yn 和I=x1,x2...xn
确定映射规则y = f(x),使得任意xi有且仅有一个yi,使得成立 y=f(x)成立
其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元
素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。
分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键
朴素贝叶斯分类
贝叶斯公式
换个表达形式
我们要解决的问题是: 在特定特征条件下属于某个类别的概率有多少
例题分析
给定的数据如下:
现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?
转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出嫁或者不嫁的答案!
套用朴素贝叶斯公式
朴素贝叶斯算法的朴素一词解释
那么我只要求得
p(不帅、性格不好、身高矮、不上进|嫁)
p(不帅、性格不好、身高矮、不上进)
p(嫁)
下面我分别求出这几个概率,就得到最终结果。
假设 p(不帅、性格不好、身高矮、不上进|嫁)
= p(不帅|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上进|嫁)
这也就是为什么朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独
立,那么这个等式就成立了!
这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
我们将上面公式整理一下如下:
我们的任务是要求出特定特征下是嫁|不嫁 那个概率更大,对比两个公式分母相同,那只需要计算两个情况的分子
p(嫁)=?
首先我们整理训练数据中,嫁的样本数如下:
则 p(嫁) = 6/12(总样本数) = 1/2
p(性格不好|嫁)= ?统计满足样本数如下: