机器学习-贝叶斯分类器

最新推荐文章于 2024-08-26 20:36:16 发布

UpCoderXH

最新推荐文章于 2024-08-26 20:36:16 发布

阅读量240

点赞数

分类专栏：机器学习文章标签：机器学习 Bayesian 贝叶斯分类器

本文链接：https://blog.csdn.net/liangdong2014/article/details/78760505

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在学习贝叶斯分类器之前，让我们先弄清楚下面的概念
- 先验概率：一般是指不同类别的概率，比如说我们用 $\omega$ 表示C分类问题的类别，则 $\omega \in \{1, 2, 3, ... C\}$ ，那么先验概率就可以表示为 $P(\omega)$ ,代表每个类别出现的概率。
- likelihood： $P(x|\omega)$ 表示给定特征下，某个特征出现的概率
- 到目前位置，其实我们可以通过先验概率和likelihood来进行判断，比如说 $if\quad P(\omega_{1}) > P(\omega_{2})\quad then \quad we\, decided\, \omega_{1}$
- 我们也可以利用不同label对应的likelihood来判断，我们通过下图还可以判断某个特征是否是好特征（好特征，对应曲线的重叠面积应该尽可能的小）。
那么接下来我们就看一下所谓的后验概率 $P(\omega_{i}|x)$ ，利用Bayesian公式我们可以得到 $P(\omega_{i}|x) = \frac {P(x|\omega_{i})P)(\omega_{i})}{P(x)}$ ，我们通过现有数据(训练集合)可以统计得到prior 以及 likelihood，所以我们就可以算的后验概率posterior了。
至此，我们也可以完整的介绍出Bayesian分类器的规则了，假设我们面对的是一个C分类问题， $\omega \in \{1,2...C\}$ ，针对每一个测试数据 $x$ ，我们可以利用训练数据，挑选出 $\max \limits_{i \in \{1, 2, ...C\}} P(\omega_{i}|x)$ 所对应的 $\omega_{i}$ 作为测试数据 $x$ 的预测label。
上面介绍了Bayesian分类器的规则，我们再从另一个角度来验证我们规则的正确性。
- 我们先介绍Risk: $R(\alpha_{i} | x) = \sum_{j=1}^{c}\lambda(\alpha_{i}|\omega_{j})*P(\omega_{j}|x)$ ，在这里我们称 $\alpha_{i}$ 称之为 $action$ 对于一个二分类来说，我们的action就有两个，一个是 $decided\, \omega_{1}$ 还有一个便是 $decided\, \omega_{2}$ 。
- 当我们想要采取某种action的时候，我们总想让action最小，所以我们可以得到下面的规则 $if \quad R(\alpha_{1} | x) < R(\alpha_{2} | x) \quad then \quad we\,decided \, \alpha_{1}$
- 我们令 $\lambda(\alpha_{i}|\omega_{j})=\left\{\begin{aligned}0\quad if\, i=j\\ 1\quad if\, i\neq j\end{aligned}\right.$ , 则 $Risk(\alpha_{i}|x)=\sum_{j=1}^{c} \lambda(\alpha_i|\omega_j)P(\omega_j|x)=\sum_{j \neq i} P(\omega_j|x) = 1-P(\omega_i|x)$ ，因为我们知道我们需要minimize Risk 所以就等价于我们需要maximize $P(\omega_i|x)$ 也就是我们之前的Bayesian 规则。
- 上面我们说过可以通过统计的方式来计算prior以及likelihood，但是这只是对离散的情况有效，但是当我们的特征分布在连续空间的话，我们应该怎么计算 $\max P(\omega_i|x)$ 所对应的 $\omega_i$ 呢？
- 通过Bayesian 公式我们可知 $P(\omega_{i}|x) = \frac {P(x|\omega_{i})P(\omega_{i})}{P(x)}$ 。在这个等式中， $P(x)$ 我们不用考虑，因为对于不同的 $\omega_i$ 该值都是一样的。而对于 $P(\omega_{i})$ ，我们也可以通过统计training data统计得到。所以现在我们就关注于怎么计算 $P(x|\omega_{i})$ 。我们可以先假设 $P(x|\omega_{i})$ 服从某一个分布，然后我们计算出该分布，不就可以算概率了嘛。一般来说我们都假设这个分布是高斯分布Gaussian Distribution。那么现在我们知道了分布的形式，那么我们怎么利用现有数据(training data)去计算具体的分布形式呢(也就是计算分布的parameters。在这里我们就需要去利用MLE(maximize likelohood estimated)算法去估计最大化likelihood( $P(x|\omega_i)$ )所对应的参数。
  - Gaussian Distribution: $P(x) \sim N(\mu, \sigma^2)=\frac {1}{\sqrt {2\pi}\sigma}e^{-\frac 12 (\frac {x-\mu}{\sigma})^2}$
  - MLE algorithm:
    - First, we define $l(\theta)=ln(P(D|\theta))\quad P(D|\theta)=\prod_{i=1}^{n}P(x_i|\theta)$
    - then, we can calculate the $\theta$ where $\theta^*=argmax_{\theta}P(D|\theta)$
- 到目前为止，我们已经把Bayesian classifier里面的大部分东西都复习完了，接下来我们复习一些通用的知识。
- 我们怎么表示我们的classifier呢？一种行之有效的方式是用判别函数。具体定义如下：
  - For multi-class problem, there are c classes. $g_i(x), i \in \{1,2...c\}$ is the discriminative function. the classifier will assign a feature x to $w_i$ if $g_i(x) > g_j(x)$
- 那么对于我们的Bayesian Classifier，我们的判别函数是什么呢？根据Bayesian Classifier的性质和判别函数的性质，我们可以定义判别函数如下所示：
  - $g_i(x)=ln\,P(\omega_i|x)=ln \,P(x|\omega_i) + ln\,P(\omega_i)$
- 练习习题:习题
- 本文内容来自浙江大学蔡登老师的机器学习课程