机器学习 - 贝叶斯理论

最新推荐文章于 2024-05-14 12:55:41 发布

Alps1992

最新推荐文章于 2024-05-14 12:55:41 发布

阅读量3.9k

点赞数

分类专栏：机器学习文章标签：机器学习贝叶斯

本文链接：https://blog.csdn.net/alps1992/article/details/51473060

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

贝叶斯简介

机器学习的学习速度不够快，不过希望能够学的比较踏实。毕竟虽然是IT但是更偏向数学，所以要学的严谨透彻，才能更好的应用到合适的场景里。

贝叶斯简介

贝叶斯推理提供了推理的一种概率手段。它基于如下的嘉定，既待考察的量遵循某概率分数，且可2根据这些概率及已观察到的数据进行推理，以做出最优的决策。

贝叶斯学习对于机器学习相关有以下两个原因：
1. 贝叶斯学习算法能够计算显式的假设概率，如朴素贝叶斯分类器，它是解决响应学习问题的最实际的方法之一。对于文本文档分类（电子新闻类）。对于这样的学习任务，朴素贝叶斯分类器是最有效的分类之一。
2. 贝叶斯学习为理解多数学习算法提供了一种有效的手段，而这些算法不一定直接操纵概率数据。

贝叶斯学习方法的特征

观察道德每个训练样例可以增量的降低或升高某假设的估计概率。这提供了一种比其他算法更合理的学习途径。其他算法会在某个假设与任一样例不一致时完全去掉该假设。
先验知识可以观察数据一起决定假设的最终概率。在贝叶斯学习中，先验知识的形式可以是：（1）每个候选假设的先验概率；（2）每个可能假设在可观察数据上的概率分布。
贝叶斯方法可允许假设做出不确定性的预测（比如这样的假设：这一肺炎病人有93%的机会康复）
新的实例分类可由多个假设一起做出预测，用他们的概率来加权。
即使在贝叶斯方法计算复杂度较高的时候，他们仍然可以作为一个最优的决策的标准衡量其他算法。

贝叶斯法则

在机器学习中，通常我们感兴趣的是在给定训练数据D时，确定假设空间H中的最佳假设。所谓最佳( best ) 假设，一种办法是把它定义为在给定数据集D以及H中的不同假设的先验概率的有关知识得罪可能(most probable )假设。贝叶斯理论提供了一种直接计算这种可能性的方法。更精确地讲，贝叶斯法则提供了一种计算假设概率的方法，它基于假设的先验概率给定假设下观察到不同数据的概率以及观察到的数据本身。

上面长篇大论说了这么多，是为了给一个概念，下面说下先验概率，后验概率

用P(h)来代表在没有训练数据前假设h拥有的初始概率。P(h)就被称为h的先验概率 ( prior probability ).
使用P(x|y)代表给定y时x的概率。即给定训练数据D时h成立的概率。P(h|D)被称为h的后验概率( posterior probability )。
后验概率P(h|D)反映了训练数据D的影响；相反，先验概率P(h)是独立于D的。

贝叶斯法则是贝叶斯学习方法的基础，因为它提供了从先验概率P(h)以及P(D)和P(D|h)计算后验概率P(h|D)的方法。

贝叶斯公式

$P (h | D) = P ( D | h ) P ( h ) P ( D )$ $P(h|D) = \frac{P(D|h)P(h)}{P(D)}$

这里可以看到，P(D)越大，P(h|D)越小，其实是合理的，表示的是假如单独D的先验概率越高，也就是单独观察时候出现的概率越大，那么D对h的支持度也就越小。

极大假设

在许多学习场景内各种，学习器考虑候选假设集合H并在其中寻找给定数据D时候，可能性最大的假设 $h\in H$ （或者存在多个这样的假设时选择其中之一）。这样的具有最大可能性的假设被称为极大后验( maximum a posteriori, MAP )假设。确定MAP假设的方法是用贝叶斯公式计算每个候选假设的后验概率。 $h_{MAP}$ 为MAP假设。

h M A P \equiv a r g m a x h \in H P (h | D) = a r g m a x h \in H P ( D | h ) P ( h ) P ( D ) = a r g m a x h \in H P (D | h) P (h)

$\begin{align} h_{MAP} & \equiv \mathop{argmax}_{h \in H} P(h|D) \\ & = \mathop{argmax}_{h \in H} \frac{P(D|h)P(h)}{P(D)} \\ &= \mathop{argmax}_{h \in H} P(D|h)P(h) \end{align}$

这里可以看到在最后一步去掉了P(D),因为它不是依赖于h的常量。

在某些情况下，我们可以假定H中每个假设都有相同的先验概率，即对任意的 $h_i$ 和 $h_j$ 都有， $P(h_i) = P(h_j)$ 。这时候可以进一步简化这个公式，只需要考虑P(D|h)就可以寻找加大可能假设了。

$P(D|h)$ 被称为给定h时数据 $D$ 的似然度( likelihood )。而是 $P(D|h)$ 最大的假设称之为极大似然 ( maximum likelihood , ML)假设 $h_{ML}$

h M L \equiv a r g m a x h \in H P (D | h)

$h_{ML} \equiv \mathop{argmax}_{h \in H} P(D|h)$

这里面数据D就是目标函数的训练样例，H称之为候选目标的函数空间。

举例

来源于：机器学习

假如在社会中，一个人得cancer的概率是：0.8%，而对一个人进行检测，检测到得cancner的准确率是：98%，检测一个人是没得cancner的准确率是：97%。那么假如一个人来检测，结果是 $\oplus$ 这个人是否应该判断有癌症（就是判断 $P(cancner | \oplus )$ ）：
首先根据已知条件我们知道：

P (c a n c n e r) P (⇁ c a n c n e r) P (\oplus | c a n c n e r) P (\oplus | ⇁ c a n c e r) P (⊖ | c a n c n e r) P (⊖ | ⇁ c a n c e r) = 0.8 % = 99.2 % = 98 % = 3 % = 2 % = 97 %

$\begin{align} P(cancner) &= 0.8\% \\ P( \rightharpoondown cancner ) & = 99.2\% \\ P( \oplus | cancner ) & = 98\% \\ P( \oplus | \rightharpoondown cancer ) & = 3\% \\ P( \ominus | cancner ) & = 2\% \\ P( \ominus | \rightharpoondown cancer ) & = 97\% \end{align}$

那么根据上面的公式可以得到：

P (\oplus | c a n c e r) P (c a n e r) P (\oplus | ⇁ c a n c n e r) P (⇁ c a n c e r) = (0.8 % * 99.2 %) \approx 0.78 % = (3 % * 99.2 %) \approx 2.98 %

$\begin{align} P( \oplus | cancer ) P(caner) & = (0.8\%*99.2\%) \approx 0.78\% \\ P( \oplus | \rightharpoondown cancner ) P(\rightharpoondown cancer) & = (3\%*99.2\%) \approx 2.98\% \end{align}$

因此 $h_{MAP} = \rightharpoondown cancer$ 。确切的后验概率可以将上面的结果归一化是他们的和为1.

P (c a n c e r | \oplus) = 0.78 % 0.78 % + 2.98 % = 0.21

$P(cancer | \oplus ) = \frac{0.78\%}{0.78\% + 2.98\%} = 0.21$

这个步骤的根据在于贝叶斯公式说明后验概率就是上面的量除以 $P(\oplus)$ 。虽然没有给出这个变量作为一直，但是因为

P (c a n c n e r | \oplus) a n d P (⇁ c a n c n e r | \oplus)

$P(cancner | \oplus ) and P(\rightharpoondown cancner | \oplus )$
这两个变量的和一定为1.可以进行归一化。所以虽然癌症的后验概率要比先验概率大，但是这里还是可以假设这个病人是没有癌症的。

注意上面计算检测有癌症的先验概率 $P(\oplus)$ 依据的是计算概率的：全概率法则 下面会讲。

基本概率公式表

乘法规则 ( Product rule ): 两件事 $A$ 和 $B$ 的交概率为 $P(A \land B)$ :
$P (A \land B) = P (A | B) P (B) = P (B | A) P (A)$ $P(A \land B ) = P(A|B)P(B) = P(B|A)P(A)$
加法规则 ( Sum rule ) : 两件事 $A$ 和 $B$ 的并概率为 $P(A \lor B)$ :
$P (A \lor B) = P (A) + P (B) + P (A \land B)$ $P(A \lor B) = P(A) + P(B) + P(A \land B)$
贝叶斯规则 (Bayes theorem ): 给定 $D$ 时 $h$ 的后验概率为 $P(h | D )$ :
$P (h | D) = P ( D | h ) P ( h ) P ( D )$ $P(h | D) = \frac{P(D|h)P(h)}{P(D)}$
全概率法则 ( Theorem of total probability ) 如果时间 $A_1, ... , A_n$ 互斥，且 $\sum^{n}_{i=1} P(A_i) = 1$ 则：
$P (B) = \sum i = 1 n P (B | A i) P (A i)$ $P(B) = \sum_{i=1}^{n}P(B|A_i)P(A_i)$