朴素贝叶斯的应用

最新推荐文章于 2024-08-14 22:32:50 发布

浪_沏沙

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量2k

点赞数

分类专栏：机器学习机器学习实战文章标签：数据 class

本文链接：https://blog.csdn.net/wangqi_qiangku/article/details/78997160

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器学习实战

3 篇文章 0 订阅

订阅专栏

$Na\ddot{i}ve Bayes$

By 浪ふ沏沙

一、贝叶斯定理

设 $X$ 是数据元组。在贝叶斯中， $X$ 看作是“证据”。通常， $X$ 用 $n$ 个属性集的测量值描述。令 $H$ 为某种假设，如数据元组 $X$ 属于某个特定类 $C$ 。对于分类问题，希望确定给定“证据”或观测数据元组 $X$ ，假设 $H$ 成立的概率 $P (H ∣ X)$ 。换言之，给定 $X$ 的属性描述，找出元组 $X$ 属于类 $C$ 的概率。

$P (H ∣ X)$ 是后验概率，或在条件 $X$ 下， $H$ 的后验概率。例如，假设数据元组事件限于分别有属性 $a g e$ 和 $i n c o m e$ 描述的用户，而 $X$ 是一位25岁的小伙子，其收入是 $5000$ 元。令 $H$ 为某种假设，如顾客将购买计算机。则 $P (H ∣ X)$ 反映我们知道顾客的年龄和收入时，顾客 $X$ 将购买计算机的概率。

相反 $P (H)$ 为先验概率。对于我们的例子，他是任意给定客户购买计算机的概率，而不管他们年龄、收入或任何其它信息。后验概率 $P (H ∣ X)$ 比先验概率 $P (H)$ 基于更多的信息。
$P (X ∣ H)$ 是条件 $H$ 下， $X$ 的后验概率，也就是说算的已经购买计算机的用户里性别和收入的概率。

我们通常使用贝叶斯公式进行计算。贝叶斯定理是： $P(H|X)=\frac {P(X|H)\times {P(H)}}{P(X)}$

我们假定数据如下，暂时先设定一个维度性别：

购买与否	男	女	合计
购买	200	80	280
不购买	80	140	220
合计	280	220	500

先确定事件为：设定用户为男性记为事件 $A$ ，购买记为事件 $B$ .
我们期待有这样的数值，新来客户为男性时，他购买的概率是多少？是女性时购买的概率是多少？对等事件我们分别记作 $P(B|A),P(B|\bar{A})$

按照理论，我们通常需要一个先验概率， $P(A|B),P(\bar{A}|B),P(A|\bar{B}),P(\bar{A}|\bar{B})$ ,以及 $P (B)$ 的概率。
我们可以用已有的数据计算出先验概率：

购买条件下男性用户的概率 $P (A ∣ B)$ ： $P(A|B)=\frac {200}{280}=\frac{5}{7}$

不购买条件下男性用户的概率 $P(A|\bar{B})$ ： $P(A|\bar{B})=\frac {80}{220}=\frac{4}{11}$

购买条件下女性用户的概率 $P(\bar{A}|B)$ ： $P(\bar{A}|B)=\frac {80}{280}=\frac{2}{7}$

不购买条件下女性用户的概率 $P(\bar{A}|\bar{B})$ ： $P(\bar{A}|\bar{B})=\frac {140}{220}=\frac{7}{11}$

购买的概率 $P (B)$ : $P(B)=\frac{280}{500}=\frac{14}{25}$

有了先验概率之后，我们就可以计算出我们需要的后验概率，也即来了一个男性用户或者女性用户，我们知道他购买的概率。

男性购买的概率： $P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)\times{P(B)}}{P(A|B)+P(A|\bar{B})}=\frac{\frac{5}{7}\times \frac{14}{25}}{\frac{5}{7}+\frac{4}{11}}=\frac{154}{415}$

女性购买的概率： $P(B|\bar{A})=\frac{P(\bar{A}B)}{P(\bar{A})}=\frac{P(\bar{A}|B)\times{P(B)}}{P(\bar{A}|B)+P(\bar{A}|\bar{B})}=\frac{\frac{2}{7}\times \frac{14}{25}}{\frac{2}{7}+\frac{7}{11}}=\frac{308}{1775}$

二、注意点

1、属性是连续的而不是分类的

在实际生活中，属性中大多会存在连续的，比如鱼的长度，人的年龄，借款的额度，借款的次数等等。贝叶斯为了解决这一问题，我们通常假设这一属性服从正态分布又称高斯分布： $f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}$
其中 $\mu$ 是属性的期望， $\sigma^2$ 为属性的方差。

属性的期望我们可以用 $E(X)=\sum_{i=0}^{n} n_{i}p_{i}$ 来计算。

属性的方差我们可以用 $\sigma^2 = \sum_{i=0}^{n}(X-\bar{X})^{2}$

例如我们要计算年龄为25岁小伙子的概率： $P\{X=25\}=P\{X<=25\}-P\{X<=24\}$

根据微积分得到 $f (x)$ 的分布函数 $F(X)=\frac{1}{\sqrt{2\pi }\sigma }\int_{-\infty }^{x}e^{-\frac{(t-\mu)^{2} }{2\sigma^2}}dt$ ,由于期望和方差是已知的故而可以算出概率。

2、出现维度分类为0的情况

我们对照上边的实例假设一个这样的情况，假设商品电脑非常潮，而男生都喜欢电脑，所有的男性都买了此电脑，也就是说没有购买的男性的人数是0。
这时会出现一个问题。 $P(A|\bar{B})=0$ 。
那么我现在再来计算一下 $P(\bar{B}|A)$ ,也即来了一个男性用户，我们预测他不购买的概率。

$P(\bar{B}|A)=\frac{P(A|\bar{B})\times {P(\bar{B})}}{P(A)}=\frac{0\times {P(\bar{B})}}{P(A)}=0$

显然，这不符合逻辑。为了解决这一问题，拉普拉斯校准应运而生。我们通常选取的样本数量不会太小，否则不具有说服力，在此的基础上，我们对各个维度的每个分类上，给样本量+1，在计算各个维度的分类的时候分母加上维度的分类数。

选取上边的例子，各个维度的样本数都加1，于是我们得到下表：

	男	女	合计
购买	201	81	282
不购买	81	141	222
合计	282	222	504

然后我们就采用校准之后的数据来获取先验概率，即可。

3、多维度的拓展

首先我们要明白这样一个事实，我们在建立模型的时候往往会有不止一两个维度，少则十几个，多则上百。而朴素贝叶斯的要求比较苛刻，我们在建立模型之初就假定各个条件相互独立，所以在解决多维度的时候，我们可以把各个维度之间看成相互独立事件。采用概率论上的独立事件算法。

假定事件 $A$ 和事件 $B$ 相互独立，则有 $P(AB)=P(A)\times P(B)$ 。有了这一公式，我们在解决多维度的时候会方便很多。

$P(ABCDE)=P(A)\times P(B)\times P(C)\times P(D)\times P(E)$
这里的 $A B C D E$ 就可以看成我们模型中的每一个维度，从而来计算出我们的先验概率，以求的后验概率。

4、维度之间不独立

在实际生活中，很难说某两个维度之间是绝对独立，而朴素贝叶斯采取的条件就是假设各个维度独立，这样难免让我们生疑，比方说学历这个维度和收入就存在一定关系，高学历决定高收入不是完全正确，但只至少可以知道这句话说明了这两个维度之间存在必然的关系。那么如何说服众人，证明两个维度之间有无关系呢？
这就需要引入我们的相关分析，对于标称数据我们采用 $\chi ^{2}$ 检验，而对于数值属性我们使用相关系数和协方差，他们都是评估一个属性的值如何随另一个变化。

标称型：一般在有限的数据中取，而且只存在特定的结果[‘类1’，‘类2’，‘类3’]（一般用于分类）

数值型：可以在无限的数据中取，而且数值比较具体化，例如1.001,2.002…这种值（一般用于回归分析）

1)、协方差和相关系数

我们知道方差是反映一个变量波动的大小。对于二维随机变量 $(X, Y)$ ,如果有 $X, Y$ 相互独立，则有 $E\{[X-E(X)][Y-E(Y)]\}=0$ (证法详见概率论方差性质3和切比雪夫不等式。)
这就意味着如果 $X$ 和 $Y$ 不相互独立，而是存在某种关系的时候 $E\{[X-E(X)][Y-E(Y)]\}\neq 0$ 。

量 $E\{[X-E(X)][Y-E(Y)]\}$ 称为随机变量 $X$ 与 $Y$ 的协方差。记为 $C o v (X, Y)$ ，即： $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$ ,而 $\rho_{XY}=\frac {Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ 称为随机变量 $X$ 与 $Y$ 的相关系数。

我们先来引入两个概念：

1、方差 $E\{[X-E(X)]^{2}\}$ ,表示各个 $X$ 与期望值的差值的平方的累和，通常记为 $D (X)$ , $\sqrt{D(X)}$ 记作标准差。实在不懂的请参考概率论。

2、 $E (X)$ 记作变量 $X$ 的期望值，计算方法为 $X$ 的各个样本与概率的乘积的累和。

通常我们使用如下公式来计算两个变量的协方差： $C o v (X, Y) = E (X Y) - E (X) E (Y)$ 。而 $E (X Y)$ 我们通常采用二重积分来求， $E (X)$ 和 $E (Y)$ 的算法就比较简单了，这里不在赘述。如果求得协方差不为0则说明 $X, Y$ 是不独立的。同样我们知道了相关系数的算法，也就知道了 $X, Y$ 不相关时，相关系数为0.

这里简要说明一下 $|\rho_{XY}|<=1$ ， $|\rho_{XY}|$ 越大说明 $X, Y$ 的相关性越高（证法略）。

2)、卡方检验

在讲述卡方检验之前，我们先来引入卡方分布：

设 $X_{1}^{2},X_{1}^{2},...,X_{n}^{2}$ 是来自总体 $N (0 ， 1)$ 的样本，则称统计量 $\chi^{2} = X_{1}^{2}+X_{1}^{2}+...+X_{n}^{2}$ 是服从自由度为 $n$ 的 $\chi^{2}$ 的分布，记作 $\chi^{2}\sim \chi^{2}(n)$ ,( $N$ 表示的是正态分布)。

我们采取我们假设的例子，学历与收入的关系做一张图表，来简述一下实现的过程：

	doctor	graduate	undergraduates	specialty	total
high	150	100	70	40	360
mid	160	170	230	110	670
low	40	50	60	90	240
total	350	320	360	240	1270

对于标称数据，两个属性 $A$ 和 $B$ 之间的相关联系可以通过 $\chi ^2$ （卡方）检验发现。假设A有c个不同值 $a_{1},a_{2},\ldots,a_{c}$ ,B有r个不同值
$b_{1},b_{2},\ldots,b_{r}$ 。用A和B描述的数据元组可以用一个相依表显示，期中A的c个值构成列,B的r个值构成行。令（ $A_{i},B_{j}$ ）表示属
性A取值 $a_{i}$ 、属性B取值 $b_{j}$ 的联合事件，即（ $A=a_{i},B=b_{j}$ ）。每个可能的（ $A_{i},B_{j}$ ）联合事件都在表中有自己的单元。
$\chi ^2$ 值可以用下式计算： $\chi ^2=\sum_{i=1}^{c}\sum_{j=1}^{r}\frac{(o_{ij}-e_{ij})^2}{e_{ij}}$
其中， $o_{ij}$ 是联合事件（ $A_{i},B_{j}$ ）的观测频度（即实际计数），而 $e_{ij}$ 是（ $A_{i},B_{j}$ ）的期望频度，
$e_{ij}=\frac{count(A=a_{j})\times count(B=b_{j})}{n}$
其中，n是数据元组的个数， $count(A=a_{j})$ 是A上具有值 $a_{i}$ 的元组个数，而 $count(B=b_{j})$ 是B上具有值 $b_{j}$ 的元组个数。