[机器学习](四)cs229 朴素贝叶斯分类器

最新推荐文章于 2023-01-17 15:42:12 发布

hotkitchen

最新推荐文章于 2023-01-17 15:42:12 发布

阅读量869

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在看了cs229的视频和讲义之后对朴素贝叶斯算法仍然很困惑，在读了一些博客后，对该算法有了较为清晰的认识，下面是一些总结。

一、算法流程：

参考 http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

1.设 $x=\{a_1,a_2,...,a_m\}$ 为一个待分类项，而每个a为x的一个特征属性。

2.有类别集合 $C=\{y_1,y_2,...,y_n\}$ 。

3.计算 $P(y_1|x),P(y_2|x),...,P(y_n|x)$ 。

4.如果 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ，则 $x \in y_k$ 。

关键在于第3步中各个条件概率的求法：

1.在训练样集中统计各类别下各个特征属性的条件概率估计，得到： $P(a_1|y_1),P(a_2|y_1),...,P(a_m|y_1);P(a_1|y_2),P(a_2|y_2),...,P(a_m|y_2);...;P(a_1|y_n),P(a_2|y_n),...,P(a_m|y_n)$ 。

2.假设各个特征是独立的，根据贝叶斯公式可得到下面推导：

$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$

其中分母为固定值，只需要比较分子的大小，而分子的计算公式如下：

$P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod^m_{j=1}P(a_j|y_i)$

二、伯努利模型和多项式模型的区别

参考:http://blog.163.com/jiayouweijiewj@126/blog/static/1712321772010102802635243/

cs229中这两个模型都有提到,但看完之后仍然对两者的区别和用法感到不解，简单来说两者的区别是：

在多项式模型中：

在多项式模型中，设某文档d=(t1,t2,…,tk)，tk是该文档中出现过的单词，允许重复，则

先验概率P(c)= 类c下单词总数/整个训练样本的单词总数

类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)

V是训练样本的单词表（即抽取单词，单词出现多次，只算一个），|V|则表示训练样本包含多少种单词。 P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据，而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。

在伯努利模型中：

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

简单来说多项式模型是针对的是单词，而伯努利模型针对的是文本量，两者表示的特征向量不同。下面是一个例子：

给定一组分好类的文本训练数据，如下：

Id	doc	类别 In c=China?
1	Chinese Beijing Chinese	yes
2	Chinese Chinese Shanghai	yes
3	Chinese Macao	yes
4	Tokyo Japan Chinese	no

给定一个新样本Chinese Chinese Chinese Tokyo Japan，对其进行分类。该文本用属性向量表示为d=(Chinese, Chinese, Chinese, Tokyo, Japan)，类别集合为Y={yes, no}。

类yes下总共有8个单词，类no下总共有3个单词，训练样本单词总数为11，因此P(yes)=8/11, P(no)=3/11。类条件概率计算如下：

P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7

P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14

P(Chinese|no)=(1+1)/(3+6)=2/9

P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9

分母中的8，是指yes类别下textc的长度，也即训练样本的单词总数，6是指训练样本有Chinese,Beijing,Shanghai, Macao, Tokyo, Japan 共6个单词，3是指no类下共有3个单词。

有了以上类条件概率，开始计算后验概率：

P(yes | d)=(3/7)³×1/14×1/14×8/11=108/184877≈0.00058417

P(no | d)= (2/9)³×2/9×2/9×3/11=32/216513≈0.00014780

比较大小，即可知道这个文档属于类别china。

2.2伯努利模型

1）基本原理

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

2）举例

使用前面例子中的数据，模型换成伯努利模型。

类yes下总共有3个文件，类no下有1个文件，训练样本文件总数为11，因此P(yes)=3/4, P(Chinese | yes)=(3+1)/(3+2)=4/5，条件概率如下：

P(Japan | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5

P(Beijing | yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5

P(Chinese|no)=(1+1)/(1+2)=2/3

P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3

P(Beijing| no)= P(Macao| no)= P(Shanghai | no)=(0+1)/(1+2)=1/3

有了以上类条件概率，开始计算后验概率，

P(no|d)= 1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022

因此，这个文档不属于类别china。

hotkitchen

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器学习](四)cs229 朴素贝叶斯分类器

在看了cs229的视频和讲义之后对朴素贝叶斯算法仍然很困惑，在读了一些博客后，对该算法有了较为清晰的认识，下面是一些总结。一、算法流程：参考 http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.设为一个待分类项，而每个a为x的一个特征属性。2.有类别集合。 3.计算。
复制链接

扫一扫