AI 人工智能第一课从贝叶斯定理开始

最新推荐文章于 2024-08-13 10:05:50 发布

曹纪乾

最新推荐文章于 2024-08-13 10:05:50 发布

阅读量6.5k

点赞数 1

分类专栏：人工智能文章标签：人工智能 AI 贝叶斯贝叶斯分类器

人工智能专栏收录该内容

6 篇文章 0 订阅

订阅专栏

如下涉及到人工智能：
贝叶斯定理
贝叶斯推理
贝叶斯决策
贝叶斯网络
贝叶斯分类器

1. 贝叶斯定理

贝叶斯定理也称贝叶斯推理，早在18世纪，英国学者贝叶斯(1702～1763)曾提出计算条件概率的公式用来解决如下一类问题：假设H[1],H[2]…,H[n]互斥且构成一个完全事件，已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现，且已知条件概率P(A/H[i])，求P(H[i]/A)。

贝叶斯公式（发表于1763年）为： P(H[i]|A)=P(H[i])*P(A│H[i])/{P(H[1])*P(A│H[1]) +P(H[2])*P(A│H[2])+…+P(H[n])*P(A│H[n])}
这就是著名的“贝叶斯定理”，一些文献中把P(H[1])、P(H[2])称为基础概率，P(A│H[1])为击中率，P(A│H[2])为误报率[1]

2.贝叶斯推理

作为一种推理方法，贝叶斯推理是从概率论中的贝叶斯定理扩充而来。贝叶斯定理断定：已知一个事件集Bi(i=1,2,...k)中每一Bi的概率P(Bi)，又知在Bi已发生的条件下事件A的条件概率P(A/Bi)，就可得出在给定A已发生的条件下任何Bi的条件概率(逆概率)P(Bi/A)。即P(Bi/A)=P(Bi)P(A/Bi)/(P(B1)P(A/B1)+P(B2)P(A/B2)+...+P(Bn)P(A/Bn))
贝叶斯定理有很广的应用范围，但作为研究贝叶斯推理的起点，我们必须扩充这个定理的意义。不考虑事件集Bi，而考虑构成实际情况的一个合适模型的假说集Hi(i=l,2,...k)，其中一个而且仅仅一个假说必定是真的。事件A则被重新解释为由实际情况得到的观察结果E：样本数据。在观察之前，对所有的i=l,2,...k，已知P(Hi)，它们是不同假说的先验概率，构成次要的信息来源。又知P(E/Hi)即在Hi真时E被观察到的概率，它们是样本数据的似然值，也叫E相对于Hi的后验概率。经过这样的解释，贝叶斯定理仅由适用给事件测定概率变成也能给假说测定概率(可信度)的工具。

3.贝叶斯决策

贝叶斯决策（Bayesian Decision Theory）就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。
贝叶斯决策属于风险型决策，决策者虽不能控制客观因素的变化，但却掌握其变化的可能状况及各状况的分布概率，并利用期望值即未来可能出现的平均状况作为决策准则。
贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：
1、已知类条件概率密度参数表达式和先验概率。
2、利用贝叶斯公式转换成后验概率。
3、根据后验概率大小进行决策分类。

4.贝叶斯网络

贝叶斯网络是一种概率网络，它是基于概率推理的图形化网络，而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概率推理的数学模型，所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程，基于概率推理的贝叶斯网络(Bayesian network)是为了解决不定性和不完整性问题而提出的，它对于解决复杂设备不确定性和关联性引起的故障有很大的优势，在多个领域中获得广泛应用。
贝叶斯网络又称信度网络，是Bayes方法的扩展，是目前不确定知识表达和推理领域最有效的理论模型之一。从1988年由Pearl提出后，已经成为近几年来研究的热点.。一个贝叶斯网络是一个有向无环图(Directed Acyclic Graph,DAG),由代表变量节点及连接这些节点有向边构成。节点代表随机变量，节点间的有向边代表了节点间的互相关系(由父节点指向其子节点)，用条件概率进行表达关系强度，没有父节点的用先验概率进行信息表达。节点变量可以是任何问题的抽象，如：测试值，观测现象，意见征询等。适用于表达和分析不确定性和概率性的事件，应用于有条件地依赖多种控制因素的决策，可以从不完全、不精确或不确定的知识或信息中做出推理。
贝叶斯网络的建造是一个复杂的任务，需要知识工程师和领域专家的参与。在实际中可能是反复交叉进行而不断完善的。面向设备故障诊断应用的贝叶斯网络的建造所需要的信息来自多种渠道，如设备手册，生产过程，测试过程，维修资料以及专家经验等。首先将设备故障分为各个相互独立且完全包含的类别（各故障类别至少应该具有可以区分的界限），然后对各个故障类别分别建造贝叶斯网络模型，需要注意的是诊断模型只在发生故障时启动，因此无需对设备正常状态建模。通常设备故障由一个或几个原因造成的，这些原因又可能由一个或几个更低层次的原因造成。建立起网络的节点关系后，还需要进行概率估计。具体方法是假设在某故障原因出现的情况下，估计该故障原因的各个节点的条件概率，这种局部化概率估计的方法可以大大提高效率。
使用贝叶斯网络必须知道各个状态之间相关的概率。得到这些参数的过程叫做训练。和训练马尔可夫模型一样，训练贝叶斯网络要用一些已知的数据。比如在训练上面的网络，需要知道一些心血管疾病和吸烟、家族病史等有关的情况。相比马尔可夫链，贝叶斯网络的训练比较复杂，从理论上讲，它是一个 NP-complete问题，也就是说，现阶段没有可以在多项式时间内完成的算法。但是，对于某些应用，这个训练过程可以简化，并在计算上高效实现。
1、贝叶斯网络本身是一种不定性因果关联模型。贝叶斯网络与其他决策模型不同，它本身是将多元知识图解可视化的一种概率知识表达与推理模型，更为贴切地蕴含了网络节点变量之间的因果关系及条件相关关系。
2、贝叶斯网络具有强大的不确定性问题处理能力。贝叶斯网络用条件概率表达各个信息要素之间的相关关系，能在有限的、不完整的、不确定的信息条件下进行学习和推理。
3、贝叶斯网络能有效地进行多源信息表达与融合。贝叶斯网络可将故障诊断与维修决策相关的各种信息纳入网络结构中，按节点的方式统一进行处理，能有效地按信息的相关关系进行融合。
对于贝叶斯网络推理研究中提出了多种近似推理算法，主要分为两大类：基于仿真方法和基于搜索的方法。在故障诊断领域里就我们水电仿真而言，往往故障概率很小，所以一般采用搜索推理算法较适合。就一个实例而言，首先要分析使用哪种算法模型：
a.)如果该实例节点信度网络是简单的有向图结构，它的节点数目少的情况下，采用贝叶斯网络的精确推理，它包含多树传播算法，团树传播算法，图约减算法，针对实例事件进行选择恰当的算法；
b.)如果是该实例所画出节点图形结构复杂且节点数目多，我们可采用近似推理算法去研究，具体实施起来最好能把复杂庞大的网络进行化简，然后在与精确推理相结合来考虑。
在日常生活中，人们往往进行常识推理，而这种推理通常是不准确的。例如，你看见一个头发潮湿的人走进来，你认为外面下雨了，那你也许错了；如果你在公园里看到一男一女带着一个小孩，你认为他们是一家人，你可能也犯了错误。在工程中，我们也同样需要进行科学合理的推理。但是，工程实际中的问题一般都比较复杂，而且存在着许多不确定性因素。这就给准确推理带来了很大的困难。很早以前，不确定性推理就是人工智能的一个重要研究领域。尽管许多人工智能领域的研究人员引入其它非概率原理，但是他们也认为在常识推理的基础上构建和使用概率方法也是可能的。为了提高推理的准确性，人们引入了概率理论。最早由Judea Pearl于1988年提出的贝叶斯网络(Bayesian Network)实质上就是一种基于概率的不确定性推理网络。它是用来表示变量集合连接概率的图形模型，提供了一种表示因果信息的方法。当时主要用于处理人工智能中的不确定性信息。随后它逐步成为了处理不确定性信息技术的主流，并且在计算机智能科学、工业控制、医疗诊断等领域的许多智能化系统中得到了重要的应用。
贝叶斯理论是处理不确定性信息的重要工具。作为一种基于概率的不确定性推理方法，贝叶斯网络在处理不确定信息的智能化系统中已得到了重要的应用，已成功地用于医疗诊断、统计决策、专家系统、学习预测等领域。这些成功的应用，充分体现了贝叶斯网络技术是一种强有力的不确定性推理方法。

5.贝叶斯分类器

贝叶斯对统计推理的主要贡献是使用了"逆概率"这个概念，并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理，这一定理可用一个数学公式来表达，这个公式就是著名的贝叶斯公式。

贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。也就是说，贝叶斯分类器是最小错误率意义上的优化。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、BAN和GBN。

贝叶斯网络是一个带有概率注释的有向无环图，图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧，则表示这两结点相对应的随机变量是概率相依的，反之则说明这两个随机变量是条件独立的。网络中任意一个结点X 均有一个相应的条件概率表(Conditional Probability Table，CPT)，用以表示结点X 在其父结点取各可能值时的条件概率。若结点X 无父结点,则X 的CPT 为其先验概率分布。贝叶斯网络的结构及各结点的CPT 定义了网络中各变量的概率分布。
贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C，其中C 的取值来自于类集合( c1 , c2 , ... , cm)，还包含一组结点X = ( X1 , X2 , ... , Xn)，表示用于分类的特征。对于贝叶斯网络分类器，若某一待分类的样本D，其分类特征值为x = ( x1 , x2 , ... , x n) ，则样本D 属于类别ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , ... , Xn = x n) ，( i = 1 ,2 , ... , m) 应满足下式：
P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , ... , P( C = cm | X = x ) }
而由贝叶斯公式：
P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)
其中，P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。
两阶段
应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习，即从样本数据中构造分类器，包括结构学习和CPT 学习；第二阶段是贝叶斯网络分类器的推理，即计算类结点的条件概率，对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度，甚至可以是NP 完全问题，因而在实际应用中，往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设，可以得出各种贝叶斯分类器，Naive Bayes、TAN、BAN、GBN 就是其中较典型、研究较深入的贝叶斯分类器。
进行计算

一般情况下，不能直接得到后验概率而是要通过贝叶斯公式

公式
进行计算。式中的P(x│ωi)为在模式属于ωi类的条件下出现x的概率密度，称为x的类条件概率密度；P(ωi)为在所研究的识别问题中出现ωi类的概率,又称先验概率；P(x)是特征向量x的概率密度。分类器在比较后验概率时,对于确定的输入x，P(x)是常数，因此在实际应用中，通常不是直接用后验概率作为分类器的判决函数gi(x)(见线性判别函数)而采用下面两种形式：
对所有的c个类计算gi(x)(i=1,2,...,c)。与gi(x)中最大值相对应的类别就是x的所属类别。