朴素贝叶斯分类器简述

最新推荐文章于 2024-05-29 18:11:45 发布

帮主写书

最新推荐文章于 2024-05-29 18:11:45 发布

阅读量394

点赞数

本文链接：https://blog.csdn.net/WOODS_CTBU/article/details/108260416

版权

基本原理

本文基于《机器学习实战》第四章：基于概率论的分类方法–朴素贝叶斯。

目标： 给定一条文本（text）：“my dog has flea”，判断此文本是侮辱性的(Abusive)还是非侮辱性的(Non-Abusive)。

书中使用朴素贝叶斯进行分类：

01 先用已知样本训练贝叶斯分类器。

假定现在只有 $c_0$ 和 $c_1$ 两类text，且每类text都包含 $f_0$ … $f_n$ 种特征，则很容易统计出每个类对应的各个特征的概率，即 $p(f_i|c_0)$ 的值。下列表格以 $c_0$ 类为例：

特征	$f_0$	$f_1$	$f_2$	…	$f_n$
概率	$p_(f_0	c_0)$	$p(f_1	c_0)$	$p(f_2

朴素贝叶斯理论假定每个特征之间是相互独立的，则：
$p(text|c_i)} = p(f_0|c_i)p(f_1|c_i)...p(f_n|c_i) \quad i \in{0,1}$

$p(c_i) = 0.5$

02 用未知数据测试

特征	$f_1$	$f_4$	$f_5$
数量	1	1	1

已知需要测试的文本只包含三种特征，分别为： $f_1$ 、 $f_4$ 、 $f_5$ ，且每个特征的数量都为1。

判断：该文本属于哪一类，即判断 $p(c_0|text)$ 与 $p(c_1|text)$ 的大小？
$\begin{aligned} p(c_{i}|text)& = argmax \quad { p(text|c_i)p(c_i) } \\ & = argmax \quad { p(f_1,f_4,f_5)|c_i)p(c_i) } \\ & = argmax \quad {p(f_1|c_i)p(f_4|c_i)p(f_5|c_i)p(c_i)} \end{aligned}$
如果： $p(c_0|text) > p(c_1|text)$ ，则属于 $c_0$ 类；否则，属于 $c_1$ 类。

贝叶斯分类需要求以下值：

1 在中 $c_i$ 类中，各个特征对应的概率，即 $p(f_i|c_j)$ ；

2 $c_i$ 类的概率，即 $p(c_i)$ ；

基本方法

01 创建文本列表

已知一些实验文本样本(sample)，并且知道这些样本对应的标签(Label)，其中label中0表示侮辱性文字，1表示非侮辱性文字。

<sample, label>
text1：<“my dalmation is so cute, I love him”, 0>
text2：<“stop posting stupid worthless garbage”, 1>
text3：<“mr licks ate my steak how to stop him”, 0>
……

接下来基于上述的实验样本，创建一个不包含重复单词的文本列表，称之为VocabList，其实就是所有特征单词的集合。即这个VocabList包含上述所有文本中的单词，且不重复。

VocabList = [ ‘cute’, ‘love’, ‘help’, ‘garbage’ , ‘quit’, ‘I’, ‘problems’, ‘is’, ‘park’, ……, ‘my’]

02 构建词向量，将文本变为数字

构建词向量基于第一步的text和VocabList，为方便说明，使用下面的简单例子进行阐述。

< text > = <“my cat is so cute”， 0>（0表示非侮辱性言论）

VocabList = [ ‘cute’, ‘love’, ‘help’, ‘garbage’ , ‘quit’, ‘I’, ‘problems’, ‘is’, ‘park’, ‘my’]（为说明方便，VocabList 只设置了10个单词。）

方法：

1.先构建一个与VocabList 大小相同的向量 $W = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]$ 。
2.从text中逐个取出单词，然后在VocabList遍历该单词，假设该单词出现在VocabList 的第5个位置，则向量W的第5个位置置1；如果没找到该单词，什么都不干。

按照上述方法，text构建的向量 $W = [1, 0, 0, 0, 0, 0, 0, 1, 0, 1]$ ，而这个向量中的0或者1，就是表示某个单词的有无，同一个单词重复了n次，那么向量里面对应的值就为n。

03 基于词向量，计算概率

已知各个特征之间是相互独立的，这是朴素贝叶斯的假设。

概率计算公式变为：
$W= [f_0,f_1,f_2,f_3,f_4,f_5,f_6,f_7,f_8,f_9]$

$p(c_{i}|W) = \frac { p(W|c_i)p(c_i) }{p(W)} \qquad$

$p(c_{i}|W) = \frac { p(f_0,f_1...f_9|c_i)p(c_i) }{p(W)} \qquad$

因为各特征之间是相互独立的，所以 $p(W|c_i) = p(f_0|c_i)(f_1|c_i)(f_2|c_i)...(f_9|c_i)$ 。比较各 $p(c_{i}|W)$ 之间的大小只需要比较 ${ p(W|c_i)p(c_i) }$ 乘积的大小，因为分母 $p (W)$ 都是一样的。
$p(W|c_i) = p(f_0|c_i)(f_1|c_i)(f_2|c_i)...(f_9|c_i)$

其中 $p(f_0|c_i)$ 的意思是 $f_0$ 所对应的单词在 $c_i$ 类文档中的概率是多少？
$p(f_i|c_0) = \frac {c_0类中特征f_i的个数}{c_0类中所有样本的个数} \qquad$
还以下面两个词组为例：

< text > = <“my cat is so cute”， 0>（0表示非侮辱性言论）

VocabList = [ ‘cute’, ‘love’, ‘help’, ‘garbage’ , ‘quit’, ‘I’, ‘problems’, ‘is’, ‘park’, ‘my’]

text构建的词向量是： $W = [1, 0, 0, 0, 0, 0, 0, 1, 0, 1]$ ；

这个text属于非侮辱性言论，则text中的单词且又出现在VocabList 中则为 $c_0$ 类，这里是’my’和’cute’。

单词cute是VocabList 中的一个特征，那么这个单词的概率是：
$p(cute|c_0) = \frac {1}{2} \qquad$
这里只是为了简要说明，单词量很少，显得概率不合理。

帮主写书

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯分类器简述

基本原理本文基于《机器学习实战》第四章：基于概率论的分类方法–朴素贝叶斯。目标：给定一条文本（text）：“my dog has flea”，判断此文本是侮辱性的(Abusive)还是非侮辱性的(Non-Abusive)。书中使用朴素贝叶斯进行分类：01 先用已知样本训练贝叶斯分类器。假定现在只有c0c_0c0和c1c_1c1两类text，且每类text都包含f0f_0f0…fnf_nfn种特征，则很容易统计出每个类对应的各个特征的概率，即p(fi∣c0)p(f_i|c_0)p(fi∣
复制链接

扫一扫