机器学习—贝叶斯分类器

贝叶斯分类器是一种基于贝叶斯定理的分类方法。

贝叶斯分类器的设计方法是一种最基本的统计分类方法,它的工作原理是通过先验概率和条件概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

朴素贝叶斯分类器是一种特殊的贝叶斯分类器,它假设特征之间相互独立。这种假设大大简化了计算,但在实际情况中,特征之间往往存在依赖关系,这会影响分类器的性能。

贝叶斯网络是一种基于概率图模型的机器学习算法,它可以表示一个概率分布网络。在这个网络中,每个节点表示一个随机变量,并且如果两个节点之间存在一条弧,则这两个节点所表示的随机变量是概率相依的;反之,如果两个节点之间没有弧相连,则这两个节点所表示的随机变量是条件独立的

总之,贝叶斯分类器是一种基于概率的分类方法,它通过计算样本属于各个类的概率来进行分类。朴素贝叶斯分类器是其中一种特殊类型,假设特征之间相互独立。贝叶斯网络则可以表示一个概率分布网络,并可以用于分类等问题。

一、贝叶斯决策论

贝叶斯决策论(Bayesian decision theory)是一种基于概率论和决策理论的方法,用于在不确定性条件下做出最优决策。该理论建立在贝叶斯概率论的基础上,结合了先验信息和观测数据,以最大化决策的期望效用。

贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率误判损失来选择最优的类别标记。

贝叶斯决策论提供了一个框架,通过结合概率分布、效用函数和观测数据,使决策者能够在不确定性条件下做出最优的决策。 

二、 判别式模型和生成式模型

要使用贝叶斯判定准则来最小化决策风险,需要先获得后验概率P(c_{i}|x)

在此,机器学习需要基于有限的样本尽可能准确地估计出后验概率。对此有两种模型。

在机器学习中,对于有监督学习可以将其分为两类模型:判别式模型和生成式模型。简单地说,判别式模型是针对条件分布建模,而生成式模型则针对联合分布进行建模。

判别式模型(Discriminative Model)

  1. 建模方式: 判别式模型直接建模并学习类别之间的决策边界或条件概率分布,无法反映训练数据本身的特性。

  2. 目标: 主要关注对给定输入数据 X 预测其所属类别 Y。判别式模型直接学习决策边界或条件概率P(Y∣X)。例如,SVM模型得到一个分界面,然后直接计算条件概率 P(Y∣X) ,我们将最大的 P(Y∣X) 作为新样本的分类。

  3. 例子: 支持向量机(Support Vector Machine)、逻辑回归(Logistic Regression)、神经网络、决策树等。

  4. 应用: 通常用于分类问题,对于大规模数据和高维数据集表现较好。

生成式模型(Generative Model):

  1. 建模方式: 生成式模型试图对整个数据分布进行建模,包括类别之间的关系以及每个类别内部的数据分布。

  2. 目标: 不仅关注对给定输入 X 预测其类别 Y,还关注生成数据的过程,即联合概率 P(X,Y)。因此,可以通过生成式模型生成新的样本。
    根据每个类别的特征学习得到模型,分别计算样本 X 跟每个类别的联合概率  P(X,Y),然后根据贝叶斯公式计算类别:

  3. 例子: 朴素贝叶斯分类器、隐马尔可夫模型(Hidden Markov Model)、高斯混合模型(Gaussian Mixture Model)、线性判别分析 (LDA)等。
     深度生成模型 (DGMs) 结合了生成模型和深度神经网络:自编码器(Autoencoder,AE)、生成式对抗网络(Generative Adversarial Network,GAN)、自回归模型,例如GPT(Generative Pre-trained Transformer)是一种包含数十亿参数的自回归语言模型。

  4. 应用: 通常用于生成新的样本,处理缺失数据,以及在有限样本情况下对数据分布进行建模。

比较:

  • 特点:

    • 判别式模型关注的是决策边界,而生成式模型关注的是数据的生成过程。
    • 判别式模型通常在分类任务上性能较好,而生成式模型可以用于生成新的样本和处理缺失数据。
  • 适用场景:

    • 当任务主要是对数据进行分类时,判别式模型通常是首选。
    • 当需要模拟和理解数据的生成过程,或者需要生成新的样本时,生成式模型更为适用。
  • 样本效率:

    • 通常情况下,生成式模型对样本效率的要求相对较高,因为它需要对整个数据分布进行建模。判别式模型在大规模数据集上通常更加高效。

在实际应用中,选择判别式模型还是生成式模型取决于具体的问题需求和数据特征。有时候也可以通过组合两者的优势,构建混合模型或使用生成式模型作为特征提取器来取得更好的效果。

三、朴素贝叶斯分类器

 基于贝叶斯公式来估计后验概率 P(c∣x)的困难为:x是一个特征向量,类条件概率是所有属性(特征)上的联合概率,但每个属性之间可能存在关联,对结果的影响是概率相依的。

为避开这个obstacle,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性(特征)相互独立(即,每个属性独立地对分类结果发生影响)。这是一个朴素的假设,但在实际应用中,这种假设往往是为了简化计算而采用的。

朴素贝叶斯分类器是一类基于贝叶斯定理和“朴素”独立性假设的分类算法。

这就是朴素贝叶斯分类器的表达式。

 1.估计先验概率P(c)。根据已知的独立同分布的样本能容易地计算出每个类(类别)的先验概率P(c)。(例:袋子里有30个白球,50个黑球。随机抽取一个,为白球的概率为0..3,为黑球的概率为0.7)

2.估计类条件概率P(x|c):

例如,

应用:

  1. 文本分类: 朴素贝叶斯广泛应用于文本分类任务,如垃圾邮件过滤、情感分析等。

  2. 多类别分类: 适用于多类别分类问题,可以处理多类别的情况。

  3. 实时分类: 训练速度快,适用于实时分类场景。

四、半朴素贝叶斯分类器

 

例如,

五、贝叶斯网

贝叶斯网络(Bayesian Network),也称为信念网络(Belief Network)或概率图模型(Probabilistic Graphical Model),是一种用于表示变量之间概率依赖关系的图形模型。它基于概率图理论,通过有向无环图(DAG)来表示变量之间的依赖关系,并使用条件概率分布来描述这些关系。

基本概念:

  1. 节点(Nodes): 图中的节点表示随机变量,每个节点代表一个特定的事件或状态。

  2. 有向边(Directed Edges): 边表示变量之间的依赖关系,有向边表示一个变量的状态依赖于另一个变量。

  3. 条件概率分布(Conditional Probability Distributions): 每个节点的状态都有一个条件概率分布,给定其父节点状态的情况下,描述该节点状态的概率。

  4. 联合概率分布(Joint Probability Distribution): 贝叶斯网络的联合概率分布是由各节点的条件概率分布联合而成。

应用领域:

  1. 风险分析: 在金融、医疗等领域,贝叶斯网络可以用于建模风险因素之间的关系。

  2. 诊断和预测: 在医学和工程领域,贝叶斯网络用于建模疾病诊断、故障预测等问题。

  3. 决策支持系统: 贝叶斯网络可用于建立决策支持系统,帮助分析复杂的决策问题。

  4. 自然语言处理: 在自然语言处理中,贝叶斯网络可以用于语言模型的建模。

  • 18
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值