朴素贝叶斯

kapoyegou

于 2016-08-31 23:17:28 发布

阅读量413

点赞数

分类专栏： Sklearn 文章标签：朴素贝叶斯

Sklearn 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一个利用贝叶斯公式来进行分类的naive方法，它建立在一个很强悍的假设条件上：即特征之间都是相互独立的，且特征们是同等重要的

贝叶斯公式

P (y | x 1, . . ., x n) = P ( y ) P ( x 1 , . . . , x n | y ) P ( x 1 , . . . , x n )

$P(y|x_1,...,x_n) = \dfrac{P(y)P(x_1,...,x_n|y)}{P(x_1,...,x_n)}$

$x_i$ 是我们的特征，也是一个随机变量，上述式子所表明的意义：若已知 $y$ 发生的概率以及 $y$ 取定为某值时所有的 $x_i$ 取值的概率，那么为因此如果把特征独立的条件带入上面的式子，我们就可求出在 $x_i$ 为某值时取到 $y$ 的概率。

好吧，上面这段写的自己都看不明白了。以文本分析为例，如果要给一些文本去按主题分类，这里的 $y$ 就是类别集合了， ${x_i}$ 就是文档中出现的词汇。上述的公式就可以解释为，在知道某一主题出现的概率 $P(y)$ 以及该主题中出现 ${x_i}$ 这些词的概率。那么我们就可以求出当一个文档出现了某些词时属于各个主题的概率。而要把朴素贝叶斯作为一个分类器去用的话，我们就应该找到那个使 $P(y|x_1,...,x_n)$ 最大的 $y$ .

m a x P (y | x 1, . . ., x n) = m a x P ( y ) P ( x 1 , . . . , x n | y ) P ( x 1 , . . . , x n )

$max P(y|x_1,...,x_n) =max \dfrac{P(y)P(x_1,...,x_n|y)}{P(x_1,...,x_n)}$

既然我们只想知道哪个 $y$ 使 $P(y|x_1,...,x_n)$ 最大，而不用求出具体的概率值，因此上式等号右边的分母是可以忽略的，求解麻烦且毫无用处。于是

m a x P (y | x 1, . . ., x n) \to m a x P (y) P (x 1, . . ., x n | y)

$max P(y|x_1,...,x_n) \to max P(y)P(x_1,...,x_n|y)$

然而这个条件联合概率 $P(x_1,...,x_n|y)$ 也不是好求的啊，这时候朴素里的条件独立性假设就派上用场了，既然条件独立，那么

P (x 1, . . ., x n | y) = \prod i = 1 n P (x i | y)

$P(x_1,...,x_n|y) = \prod_{i=1}^n P(x_i|y)$

这样，目标函数就出炉了:

y^= a r g m a x y P (y) \prod i = 1 n P (x i | y)

$\hat{y} = argmax_y P(y)\prod_{i=1}^n P(x_i|y)$

当然，这个条件独立性假设其实是不太合理，有些时候有些词之间就是会有很强的相关性。针对这种情况，我们可以调整一下朴素贝叶斯的词典设置，不仅以单个的词汇做特征，还可以以连续的两个词等，此为ngram，在之后的sklearn naive bayes库里会提到。
另外还可以根据词汇之间的相关性绘制概率图模型，偶们称之为贝叶斯网络，较出名的即为马尔科夫模型，此为后话。

根据 $P(x_i|y)$ 服从的概率分布不一样，朴素贝叶斯方法也可分为以下几类

高斯NB
$P (x i | y) = 1 2 π δ 2 y - - - - \sqrt exp (- ( x i - μ y ) 2 2 δ 2 y)$ $P(x_i|y) = \dfrac{1}{\sqrt{2\pi\delta_y^2}}\exp(-\dfrac{(x_i - \mu_y)^2}{2\delta_y^2})$