朴素贝叶斯代码_李航统计学习方法:第四章 朴素贝叶斯 ( 含有笔记、代码、注释 )...

本文详细介绍了朴素贝叶斯分类器的工作原理,包括贝叶斯公式、分类问题的数学描述、实例分析以及如何处理特征不独立的情况。通过具体的例子展示了如何计算不同条件下的概率,并解释了算法的优缺点。此外,还提供了简单的代码实战和scikit-learn库的使用示例。
摘要由CSDN通过智能技术生成

分类问题

① 日常生活中我们每天都进行着分类过程。

② 例如:

  1. 当你看到一个人,你的脑子下意识判断他是学生还是社会上的人。
  2. 走在路上,对身旁的朋友说 "这个人的父母有教养" 之类的话。

分类数学描述

① 从数学角度来说,分类问题可做如下定义:

已知集合

,映射规则y = f(),使得任意
有且仅有一个
,使得
成立。

② 其中:

  1. I 叫做特征集合。
  2. C 叫做类别集合,其中每一个元素是一个类别。
  3. f 叫做分类器。

注:分类算法的任务就是构造分类器 f。

③ 分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。

朴素贝叶斯分类

① 朴素贝叶斯分类算法的核心算法,是下面这个贝叶斯公式:

de02f25c22b37955b03f8510b0f5c9ef.png

注:换个表达形式就会明朗很多,如下:

b39cb6cd1a56c4460a284eca04689298.png

② 我们最终要求的是 p(类别|特征)。

实例

① 给定数据,如下所示:

d2c02bc6f4169a20428c5ee60a6268d4.png

② 问题:

  1. 如果一对是男女朋友,男生向女生求婚。
  2. 男生的四个特点分别是不帅、性格不好、身高矮、不上进。
  3. 判断一下女生是嫁还是不嫁?

③ 这个典型的分类问题,就会转为数学问题,比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率。

④ 比较嫁与不嫁的概率,选择概率大的类别。

⑤ 结合朴素贝叶斯公式:

8934000ea0c524b30fe622c3f09497a5.png

⑥ 我们需要求出 p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的。

⑦ 朴素贝叶斯公式可以将其转化为三个好求的量:

  1. p(不帅、性格不好、身高矮、不上进|嫁)
  2. p(不帅、性格不好、身高矮、不上进)
  3. p(嫁)

⑧ 将待求的量转化为其它可求的值,通过可求的量,就可以求出待求的值了。

朴素解释

① 三个好求的量是根据已知训练数据统计得来的。

注:p(不帅、性格不好、身高矮、不上进|嫁) = p(不帅|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上进|嫁)。

注:通过统计右边几个概率,就得到了左边的概率。

② 这个等式成立的条件需要特征之间相互独立。

注:这就是朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独立,那么这个等式就成立了。

特征不独立

① 假如特征之间不相互独立,那么右边概率的估计是不可做的。

② 比如:

  1. 我们有4个特征,其中帅包括{帅,不帅},性格包括{不好,好,爆好},身高包括{高,矮,中},上进包括{不上进,上进}。
  2. 那么四个特征的联合概率分布总共是4维空间,总个数为2*3*3*2=36个。

注:36个,计算机扫描统计还可以。

注:现实生活中,往往有非常多的特征,每一个特征的取值也是非常之多,那么计算机扫描统计变得几乎不可做。

② 比如:

  1. 假如我们没有假设特征之间相互独立,那么我们统计的时候,就需要在整个特征空间中去找,比如统计p(不帅、性格不好、身高矮、不上进|嫁),
  2. 我们就需要在嫁的条件下,去找四种特征全满足分别是不帅,性格不好,身高矮,不上进的人的个数,由于数据的稀疏性,很容易统计到0的情况,这是不合适的。

③ 朴素贝叶斯法对条件概率分布做了条件独立性的假设,这是一个较强的假设。

④ 特征之间相互独立这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。

⑤ 将上面公式整理一下如下:

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值