伯努利分布+朴素贝叶斯分类器の概率解释

最新推荐文章于 2024-05-29 18:11:45 发布

anarion

最新推荐文章于 2024-05-29 18:11:45 发布

阅读量1.7k

点赞数 7

分类专栏：统计学和机器学习文章标签：机器学习概率论线性代数朴素贝叶斯算法

本文链接：https://blog.csdn.net/weixin_42523849/article/details/106557960

版权

「伯努利分布+朴素贝叶斯」分类器

在神经网络技术还不成熟的时候，朴素贝叶斯分类器(NBC)是文档分类的利器。即便是在神经网络满地走的今天，朴素贝叶斯模型依然有很大的价值。进行文档分类时，这个模型只需要进行几次简单的循环，就可以给出结果，在一些对结果要求不是特别高、对性能要求很高的场景下，具有很大的价值。

这篇文章以文档分类问题引出，重点将特征的伯努利分布(Bernoulli)带入朴素贝叶斯模型，熟悉贝叶斯统计的流程和计算。

本文的md源码在这里：AnBlog/统计和机器学习

可以解决的问题

在进行文档分类之前，需要对文本进行一些处理。对于这个模型来说，最关键的一步是建立一个特征(feature)向量，向量的每个分量(entry)对应文本中可能出现的一个单词，取值 $0, 1$ ，表示存在/不存在。

这样的一个分量用伯努利分布描述，参数为 $\theta$ ：
$p(x=1|\theta)=\theta,p(x=0|\theta)=1-\theta$
在其他问题中，这个分布可能取正态分布，或其他分布，但过程的其他部分大同小异。

建立这样的一个从「单词」到「 $0, 1$ 」的映射，可以通过简单的哈希表实现。一段文本中可能出现各种各样的单词，为了保证完备，一段文本对应的特征可能特别多，可能包含所有的英语单词、中文字符，以及世界上的各种其他语言！一定存在一些更省空间的优化，但这不是这篇文章的重点。

模型的目标由需求决定，通常是个二分类问题，判断邮件是/不是垃圾邮件。这篇文章讨论多类分类问题，目标 $y$ 服从多项的伯努利分布(Multinoulli)，参数为 $\pi$ ：
$p(y|\pi)=\prod_c\pi_c^{I(y=c)},\sum_c\pi_c=1$
解决问题的过程，就是根据现有的数据 $D$ ，估计参数 $\theta,\pi$ ，从而求目标 $y$ 未来取某值的概率 $p (y = \dots)$ 。

「朴素」的意思

「朴素」指的是假设对象的特征都相互独立，这当然不是一个完美的假设，所以才「朴素」(naive)。也就是说，对象特征 $\vec x$ 的概率分布函数，是各个特征 $x_j$ 的概率分布函数的乘积：
$p(\vec x)=\prod_{j=1}^Dp(x_j)$

具体要算什么

数据情况和分布假设

假设特征 $x$ 都只能取得两个离散的值 $0, 1$ ，表示「是否存在」，可以用伯努利分布描述这样的数据：
$p(x_j|\theta_j)=\theta_j^{x_j}(1-\theta_j)^{1-x_j}$
$x$ 当然可以取其他的值和分布，取值连续时可以取正态分布，取值为多个离散值时可以是多项伯努利分布。

为了让模型具备更多数据，参数 $\theta$ 和目标分类 $c$ 发生依赖，不同的 $c$ 对应不同的参数 $\theta$ ，则要估计的参数 $\theta$ 是一个矩阵 $\theta_{jc}$ ：
$p(x_j|y=c,\theta_{jc})=\theta_{jc}^{x_j}(1-\theta_{jc})^{1-x_j}$
还未完成的是表达 $p(\theta_{jc}|D)$ 。

$y$ 可以取离散的多个不同值， $y ∣ D$ 和特征 $x$ 无关，可以通过多项伯努利分布描述：
$p(y|\pi)=\prod_c\pi_c^{I(y=c)},\sum_c\pi_c=1$
参数 $\pi$ 也需要估计。

写出联合后验分布：
$p(\theta,\pi|D)\propto p(\theta,\pi)p(D|\theta,\pi)=p(\theta)p(\pi)p(D|\theta,\pi)$

似然 (Likelihood)

接上式似然：
$p(D|\theta,\pi)=\prod_ip(x^{(i)},y^{(i)}|\theta,\pi)=\prod_ip(x^{(i)}|\theta,\pi)p(y^{(i)} |\theta,\pi)=\prod_ip(x^{(i)}｜\theta)p(y^{(i)} |\pi)$
其中，对每个特征 $j$ ：
$p(x^{(i)}|\theta)=\prod_{j=1}^Dp(x_j^{(i)}|\theta_j)$
为不同的分类设置不同的参数 $\theta$ 以增加模型的复杂度：
$p(x_j^{(i)}|\theta_{jc})=\prod_cp(x_j^{(i)}|\theta_{jc})^{I(y^{(i)}=c)},p(x_j^{(i)}|\theta_{jc})=\theta_{jc}^{x_j^{(i)}}(1-\theta_{jc})^{1-x_j^{(i)}}$

最大似然估计 (MLE)

取对数：
$\ln p(D|\theta,\pi)=\ln \prod_ip(x^{(i)},y^{(i)}|\theta,\pi)=\sum_i(\ln p(y^{(i)}|\pi)+\sum_j\ln p(x^{(i)}_j|\theta_j))$
$y$ 部分：
$\sum_i\ln p(y^{(i)}|\pi)=\sum_i\sum_cI(y^{(i)}=c)\times\ln\pi_c=\sum_cN_c\ln\pi_c$
$x$ 部分：
$\sum_i\sum_j\ln p(x^{(i)}_j|\theta_j)=\sum_j\sum_c\sum_{i:y^{(i)}=c}(x_j^{(i)}\ln\theta_{jc}+(1-x_j^{(i)})\ln(1-\theta_{jc}))$

最低0.47元/天解锁文章

anarion

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
伯努利分布+朴素贝叶斯分类器の概率解释

在神经网络技术还不成熟的时候，朴素贝叶斯分类器(NBC)是文档分类的利器。即便是在神经网络满地走的今天，朴素贝叶斯模型依然有很大的价值。进行文档分类时，这个模型只需要进行几次简单的循环，就可以给出结果，在一些对结果要求不是特别高、对性能要求很高的场景下，具有很大的价值。这篇文章以文档分类问题引出，重点将特征的伯努利分布(Bernoulli)带入朴素贝叶斯模型，熟悉贝叶斯统计的流程和计算。
复制链接

扫一扫

专栏目录