ML学习笔记(一)：naive bayas

最新推荐文章于 2024-10-06 12:27:49 发布

wxc575843_bill

最新推荐文章于 2024-10-06 12:27:49 发布

阅读量529

点赞数

分类专栏： ML 文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/sinat_17817545/article/details/51758004

版权

ML 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

学习了一个多学期的机器学习和数据挖掘的基本知识，经过一次考试认识到，目前知识还处于混乱状态，借此平台整理，加深记忆。

如果中间过程没有看懂，我相信我的例子一定能让你透彻理解。例子需要动手计算，相信算完再回顾前面的理论就会有新的理解。例子在第五部分。

1. 简介

naive bayes分类器是一种很简单的概率分类器。主要理论是bayes理论，以及对特征间强独立性的假设。就是假设所有事件互相独立。举例来说就是，决定是否买电脑时，我的年龄和我的收入是完全独立的。年龄不会影响收入。

优点：Simple and fast
缺点：在现实问题中，对于各个特征完全独立的假设可能不准确。

2. 概率模型

naive bayes分类器是一个条件概率模型，该分类器如下面公式所示：

问题描述： $X=(x^{(1)},x^{(2)}...,x^{(m)})$ 其中m代表特征的数量。 $P(C_k|X)$ 代表分到第k类的概率。如果满足：

P (C i | X) \geq P (C j | X) j \neq i, 1 \leq j \leq K

$P(C_i|X)\ge P(C_j|X) \ \ j\ne i,1\le j\le K$ 则将X分类到i类。
也就是说，选择概率最大的那一类将X归入。

基于Bayes理论，条件概率可以被表示为

p (C k | X) = p ( C k ) p ( X | C k ) p ( x )

$p(C_k|X)=\frac{p(C_k)p(X|C_k)}{p(x)}$ 或者表示为

p o s t e r i o r = p r i o r * l i k e l i h o o d e v i d e n c e

$posterior=\frac{prior*likelihood}{evidence}$
下面讨论此公式的计算问题。
<1>在实际使用中

p(x) $p(x)$ 可以不用计算，因为对于所有类来说

p(x) $p(x)$ 相同。

<2> $p(X|C_k)$ 的计算。由概率论中的知识我们可以知道这是一个已知 $C_k$ 时 $X$ 的联合分布，对于计算这个联合分布是十分困难的。所以这就是naive bayes的奇妙之处，下面是详细的公式推导，使用naive bayes的特征独立性，得出来 $p(X|C_k)$ 的结果。

p (x (1), x (2) . . ., x (m) | C k) = p ( x ( 1 ) , x ( 2 ) . . . , x ( m ) , C k ) p ( C k )

$p(x^{(1)},x^{(2)}...,x^{(m)}|C_k)=\frac{p(x^{(1)},x^{(2)}...,x^{(m)},C_k)}{p(C_k)}$

= p ( x ( 1 ) | x ( 2 ) . . . , x ( m ) , C k ) * p ( x ( 2 ) . . . , x ( m ) , C k ) p ( C k )

$=\frac{p(x^{(1)}|x^{(2)}...,x^{(m)},C_k)*p(x^{(2)}...,x^{(m)},C_k)}{p(C_k)}$

= p ( x ( 1 ) | x ( 2 ) . . . , x ( m ) , C k ) * p ( x ( 2 ) | . . . , x ( m ) , C k ) * . . . * p ( x m , C k ) p ( C k )

$=\frac{p(x^{(1)}|x^{(2)}...,x^{(m)},C_k)*p(x^{(2)}|...,x^{(m)},C_k)*...*p(x^{m},C_k)}{p(C_k)}$

= p (x (1) | x (2) . . ., x (m), C k) * p (x (2) | . . ., x (m), C k) * . . . * p (x m | C k) (1)

$=p(x^{(1)}|x^{(2)}...,x^{(m)},C_k)*p(x^{(2)}|...,x^{(m)},C_k)*...*p(x^{m}|C_k)\ \ (1)$
由于naive bayes假设所有特征独立，此时条件概率等于无条件概率即：

p (x (1) | x (2)) = p ( x ( 1 ) , x ( 2 ) ) p ( x ( 2 ) ) = p ( x ( 1 ) ) p ( x ( 2 ) ) p ( x ( 2 ) ) = p (x (1))

$p(x^{(1)}|x^{(2)})=\frac{p(x^{(1)},x^{(2)})}{p(x^{(2)})}=\frac{p(x^{(1)})p(x^{(2)})}{p(x^{(2)})}=p(x^{(1)})$
所以(1)可以化简为：

p (x (1), x (2) . . ., x (m) | C k) = \prod j = 1 m p (x (j) | C k)

$p(x^{(1)},x^{(2)}...,x^{(m)}|C_k)=\prod_{j=1}^{m}p(x^{(j)}|C_k)$
但是读者可能又会问，

p(x(j)|Ck) $p(x^{(j)}|C_k)$ 怎么计算呢，这个你看到第四部分，参数估计就明白了。这里是原理，请耐心阅读。

<3> $P(C_k)$ 的计算。
P(C_k)为先验概率，此概率一半为已知。

<4>接下来就是结论，编程的时候就是使用的这一部分，综上naive bayes分类器可以表示为：

y ̂ = a r g max k \in 1... k P (C k) \prod j = 1 m P (x j | C k)

$\hat{y}=arg\max_{k\in{1...k}}P(C_k)\prod_{j=1}^{m}P(x^{j}|C_k)$

3. 事件模型

这一部分是针对上一部分 $P(x^{j}|C_k)$ 的进一步讨论，在实际计算时，我们往往将 $P(x^{j}|C_k)$ 假定为某一种分布，例如：

正态分布

$P (x = v | c) = 1 2 π σ 2 c ‾ ‾ ‾ ‾ ‾ \sqrt e - ( v - μ c ) 2 2 σ 2 c$ $P(x=v|c)=\frac{1}{\sqrt{2\pi \sigma^{2}_c}}e^{-\frac{(v-\mu_c)^2}{2\sigma^2_c}}$
Bernoulli分布

$P (x = l | C k) = p l k j (1 - p k j) 1 - l l = 0, 1$ $P(x=l|C_k)=p_{kj}^l(1-p_{kj})^{1-l}\ \ l=0,1$

4. 参数估计

上一部分，就是说如果碰到实际问题，可以假设概率就是这个样子。但是如果不能假设成为这个样子，我们就需要用到参数估计的知识了。现在我们再回顾一下我们要计算的公式：

P (C k) \prod j = 1 m P (x (j) | C k)

$P(C_k)\prod _{j=1}^mP(x^{(j)}|C_k)$
所以本节分为两个部分

part one： $P(C_k)$ 的估计

P ̂ (Y = C k) = \sum n i = 1 I ( y i = C k ) + λ n + K λ

$\hat P(Y=C_k)=\frac{\sum_{i=1}^{n}I(y_i=C_k)+\lambda}{n+K\lambda}$
这个式子就是说，我这一类的先验概率可以表示为，我所有已知数据中是这一类的数量／总的数量。其中

λ $\lambda$ 是平滑参数，主要使用意义在part two中防止分母为0，这个值是我们预先取定的，如果

λ=1 $\lambda=1$ 则称为拉普拉斯平滑。

$\\ \\$

part two： $P(x^{(j)}|C_k)$ 的估计

P (x (j) | C k) = \sum i = 1 n I ( x ( j ) i = l , y i = C k ) + λ \sum n i = 1 I ( y i = C k ) + S j λ

$P(x^{(j)}|C_k)=\frac{\sum^{i=1}_{n}I(x^{(j)}_i=l,y_i=C_k)+\lambda}{\sum_{i=1}^{n}I(y_i=C_k)+S_j\lambda}$
这个式子就是说，

P(x(j)=l|Ck) $P(x^{(j)}=l|C_k)$ 可以用属于这一类，并且

x(j) $x^{(j)}$ 属性为

l $l$ 的数据的数量／这一类数据的数量。其中

λ $\lambda$ 主要是为了防止分母为0，因为某一类可能一个数据也没有。

Sj $S_j$ 是这一个属性

x(j) $x^{(j)}$ 有几种情况，比如是否买电脑问题的年龄属性，这个属性可能取值为年轻，年老，中年。那么此时

Sj=3 $S_j=3$ 。

5. 例子：是否购买电脑

好了，讲了这么多，如果没有例子我也是谜的。下面这个例子相信能让你对我上面总结的各种公式有深刻的理解。

例：现在我们已经有了一些购买电脑人的信息如下图，使用naive bayes模型，预测wxc575843同学他会不会买电脑，此同学的属性为 $X=(age=youth, income=medium, student=yes, credit\_rating=fair)$
不使用平滑即 $\lambda=0$

解：
这里一共要计算两个值， $P(buy|X)和P(not\ buy|X)$

这里我们可以数出，14个人中有9个买了电脑，所以 $P(buy)=\frac{9}{14}$
在9个买了电脑的人中age=youth的有两个所以 $P(age=youth|buy)=\frac{2}{9}$
在9个买了电脑的人中income=medium的有4个所以 $P(income=medium|buy)=\frac{4}{9}$
同理
$P (student=yes|buy)=\frac{6}{9}$
$P (credit\_rating=fair|buy)=\frac{6}{9}$
所以 $P(buy|X)=\frac{9}{14}*\frac{2}{9}*\frac{4}{9}*\frac{6}{9}*\frac{6}{9}=0.02822$