机器学习——贝叶斯网络

最新推荐文章于 2023-12-31 22:39:35 发布

yfqh9588

最新推荐文章于 2023-12-31 22:39:35 发布

阅读量674

点赞数

文章标签：算法机器学习

本文链接：https://blog.csdn.net/qq_43635468/article/details/106130023

版权

基础概念

一、相对熵
相对熵，又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等。
设p(x)，q(x)是X中取值的两个概率分布, 则p对q的相对熵是：
在这里插入图片描述

相对熵可以度量两个随机变量的“距离”；
一般情况下p对q的相对熵不等于q对p的相对熵；
p对q的相对熵大于等于0

二、互信息
两个随机变量X，Y的互信息定义为X，Y的联合分布和独立分布乘积的相对熵。
在这里插入图片描述
三、信息增益
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(DIA)之差,即：
在这里插入图片描述
显然，这即为训练数据集D和特征A的互信息。
四、概率公式
1、条件概率：

2、全概率公式：

3、贝叶斯公式：

概率图模型

概率图模型是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布。
对于一个实际问题，我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图，用观测结点表示观测到的数据，用隐含结点表示潜在的知识，用边来描述知识与数据的相互关系，最后基于这样的关系图获得一个概率分布，非常“优雅”地解决了问题。
概率图中的节点分为隐含节点和观测节点，边分为有向边和无向边。从概率论的角度，节点对应于随机变量，边对应于随机变量的依赖或相关关系，其中有向边表示单向的依赖，无向边表示相互依赖关系。
概率图模型分为贝叶斯网络（Bayesian Network）和马尔可夫网络（Markov Network）两大类。贝叶斯网络可以用一个有向图结构表示，马尔可夫网络可以表示成一个无向图的网络结构。更详细地说，概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等，在机器学习的诸多场景中都有着广泛的应用。

朴素贝叶斯

朴素贝叶斯(Naive Bayesian)是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。
朴素贝叶斯可以看做是贝叶斯网络的特殊情况：即该网络中无边，各个节点都是独立的。

朴素贝叶斯的两个假设：

一个特征出现的概率与其他特征（条件）独立；
每个特征同等重要。

贝叶斯公式：
在这里插入图片描述
朴素贝叶斯法对条件概率分布做了条件独立性的假设，由于这是一个较强的假设，朴素贝叶斯也由此得名！这一假设使得朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

朴素贝叶斯优点：

算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化即可）
分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）

朴素贝叶斯缺点：
理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。
朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是"很简单很天真"地假设样本特征彼此独立. 这个假设现实中基本上不存在, 但特征相关性很小的实际情况还是很多的, 所以这个模型仍然能够工作得很好。

贝叶斯网络

一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量，是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)"，另一个是“果(children)"，两节点就会产生一个条件概率值。
每个结点在给定其直接前驱时,条件独立于其非后继。
一个简单的贝叶斯网络
在这里插入图片描述
贝叶斯网络的3种结构形式：
D-Separation：是一种用来判断变量是否条件独立的图形化方法。即对于一个有向无环图，D-Separation方法可以快速的判断出两个节点之间是否是条件独立的。

形式1：head-to-head
在这里插入图片描述
在c未知的条件下，a、b被阻断(blocked)，是独立的，称之为head-to-head条件独立。

形式2：tail-to-tail
在这里插入图片描述
在c给定的条件下，a，b被阻断(blocked)，是独立的，称之为tail-to-tail条件独立。

形式3：head-to-tail
在这里插入图片描述

在c给定的条件下，a、b被阻断(blocked)，是独立的，称之为head-to-tail条件独立。

当前状态只跟上一状态有关，跟上上或上上之前的状态无关。这种顺次演变的随机过程，就叫做马尔科夫链（Markov chain）。

有向图、无向图、条件随机场：
1.有向图模型（Directed Graphical Models, DGM），又称作贝叶斯网络：
在这里插入图片描述
2. 无向图模型（UndirectedGraphical Models, UGM）, 又被称为马尔科夫随机场或者马尔科夫网络:

3. 设X=(X1,X2…Xn)和Y=(Y1,Y2…Ym)都是联合随机变量，若随机变量Y构成一个无向图 G=(V,E)表示的马尔科夫随机场（MRF），则条件概率分布P(Y|X)称为条件随机场（Conditional Random Field, CRF）。如下图所示为一个线性链条件随机场的无向图模型：
在这里插入图片描述
边缘分布：多维随机变量中，只包含其中部分变量的概率分布。

yfqh9588

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习——贝叶斯网络

目录基础概念概率图模型朴素贝叶斯贝叶斯网络基础概念一、相对熵相对熵，又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等。设p(x)，q(x)是X中取值的两个概率分布, 则p对q的相对熵是：相对熵可以度量两个随机变量的“距离”；一般情况下p对q的相对熵不等于q对p的相对熵；p对q的相对熵大于等于0二、互信息两个随机变量X，Y的互信息定义为X，Y的联合分布和独立分布乘积的相对熵。三、信息增益信息增益表示得知特征A的信息而使得类X的信息的不确定性减少
复制链接

扫一扫