机器学习中的两个概率模型

最新推荐文章于 2024-03-11 18:33:17 发布

Zhang_P_Y

最新推荐文章于 2024-03-11 18:33:17 发布

阅读量6.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习生成模型判别模型

本文链接：https://blog.csdn.net/LG1259156776/article/details/48139381

版权

机器学习专栏收录该内容

90 篇文章 9 订阅

订阅专栏

discriminative model 和 generative model是机器学习算法中两种概率模型，用来实现对训练样本的概率分布进行建模，在实践中由于经常混淆，现在通过查阅资料，将两者的分别总结于此。
不妨用stackoverflow上的一段描述来开启这个话题：

Let’s say you have input data x and you want to classify the data into labels y. A generative model learns the joint probability distribution $p(x,y)$ and a discriminative model learns the conditional probability distribution $p(y|x)$ - which you should read as “the probability of $y$ given $x$ ”. Here’s a really simple example. Suppose you have the following data in the form $(x,y): (1,0), (1,0), (2,0), (2, 1)$

$p(x,y)$ is

$p(x,y)$	$y=0$	$y=1$
$x=1$	${1\over2}$	$0$
$x=2$	${1\over4}$	${1\over4}$

$p(y|x)$ is

$p(y\|x)$	$y=0$	$y=1$
$x=1$	${1}$	$0$
$x=2$	${1\over2}$	${1\over2}$

If you take a few minutes to stare at those two matrices, you will understand the difference between the two probability distributions. The distribution $p(y|x)$ is the natural distribution for classifying a given example x into a class y, which is why algorithms that model this directly are called discriminative algorithms. Generative algorithms model $p(x,y)$ , which can be tranformed into $p(y|x)$ by applying Bayes rule and then used for classification. However, the distribution $p(x,y)$ can also be used for other purposes. For example you could use $p(x,y)$ to generate likely $(x,y)$ pairs. From the description above you might be thinking that generative models are more generally useful and therefore better, but it’s not as simple as that. The overall gist is that discriminative models generally outperform generative models in classification tasks.

Generative models are used in machine learning for either modeling data directly (i.e., modeling observations drawn from a probability density function), or as an intermediate step to forming a conditional probability density function. A conditional distribution can be formed from a generative model through Bayes’ rule.

生成模型是对样本数据的联合概率 $p(x,y)$ 进行建模，建模得到的联合概率 $p(x,y)$ 可以用来生成数据对 $(x,y)$ ，所以被称为生成模型。而判别模型则是对条件概率 $p(y|x)$ 进行建模，即给定 $x$ 对应 $y$ 的概率。而通过生成模型是可通过贝叶斯公式推导至判别模型，而从判别模型无法推导至生成模型。 $p(x, y) = p(x | y) p(y)$ ，在进行建模的时候，生成模型在训练样本中将对（以二分类问题为例） $y=0$ 时样本的特征分布和 $y=1$ 时样本的特征分布分别进行建模，然后还需对训练样本中的 $y$ 的先验概率 $p(y)$ 进行建模。当输入新的无标签样本进行测试时，只需通过计算。而判别模型则比较简单，直接通过计算 $p(x, y=1) = p(x | y=1)p(y=1)$ 用来代替 $p(y=1 | x)$ 和 $p(y=0 | x)$ ，并比较两者大小来判定类别归属。而对于判别模型则直接对后验概率模型 $p(y | x)$ 进行建模，比如logistic regression和linear regression等。在测试时，对于无标签样本，直接输入到概率模型中就能得到对应的 $y$ 值，如果是二分类问题，就可以通过输出 $p(y=1 | x)$ 的概率是否大于 $0.5$ 为标准来判定归属。

Although this topic is quite old, I think it’s worth to add this important distinction. In practice the models are used as follows.

In discriminative models to predict the label y from the training example x, you must evaluate:

f (x) = a r g m a x y p (y | x)

$f(x)=arg~max_y~p(y|x)$
Which merely chooses what is the most likely class considering x. It’s like we were trying to model the decision boundary between the classes. This behavior is very clear in neural networks, where the computed weights can be seen as a complex shaped curve isolating the elements of a class in the space.

Now using Bayes’ rule, let’s replace the $p(y|x)$ in the equation by $\frac{p(x|y)p(y)}{p(x)}$ . Since you are just interested in the arg max, you can wipe out the denominator, that will be the same for every y. So you are left with

f (x) = a r g m a x y p (x | y) p (y)

$f(x)=arg~max_y~p(x|y)p(y)$
Which is the equation you use in generative models. While in the first case you had the conditional probability distribution

p(y|x) $p(y|x)$ , which modeled the boundary between classes, in the second you had the joint probability distribution

p(x,y) $p(x, y)$ , since

p(x,y)=p(x|y)p(y) $p(x, y) = p(x | y) p(y)$ , which explicitly models the actual distribution of each class.

With the joint probability distribution function, given an y, you can calculate (“generate”) its respective x. For this reason they are called generative models.

Imagine your task is to classify a speech to a language:

you can do it either by:

1) Learning each language and then classifying it using the knowledge you just gained

2) Determining the difference in the linguistic models without learning the languages and then classifying the speech.

the first one is the Generative Approach and the second one is the Discriminative approach.

Examples of discriminative models used in machine learning include:

Logistic regression
Support vector machines
Boosting (meta-algorithm)
Conditional random fields
Linear regression
Neural networks

Examples of generative models include:

Gaussian mixture model and other types of mixture model
Hidden Markov model
Probabilistic context-free grammar
Naive Bayes
Averaged one-dependence estimators
Latent Dirichlet allocation
Restricted Boltzmann machine

2015-8-31 艺少

增补内容：2015-9-1

利用Discriminative model对 $p(w|x)$ 直接进行建模：
（注： $w$ 在此就是 $y$ ）
1. 为 $p(w)$ 选择一个合适的概率分布形式
比如选择 $w$ 服从正态分布，如图所示：
这里写图片描述
2. 通过 $x$ 的函数来作为 $p(w)$ 概率分布形式中的参数
将正态分布的均值 $\mu$ 由 $x$ 的线性函数表示，方差为一个常数。

p (w | x, θ) = N o r m w [ϕ 0 + ϕ 1 x, σ 2]

$p(w|x,\theta)=Norm_w[\phi_0+\phi_1x,\sigma^2]$
3. 以 $\theta$ 为参数将定义 $p(w|x)$ 的形状
参数为 $\phi_0,\phi_1,\sigma^2$ . note： this is a linear regression model。
参数可以通过最大化后验概率（MAP），或者最大似然概率（MLE）等来实现估计。
利用Generative模型对 $p(x|w)$ 或者是 $p(x,w)$ 进行建模：
1. 为 $p(x)$ 选择一个合适的概率分布形式
比如选择 $x$ 服从正态分布，如图所示：

2. 通过 $w$ 的函数来作为 $p(x)$ 概率分布形式中的参数
将正态分布的均值 $\mu$ 由 $x$ 的线性函数表示，方差为一个常数。
$p (x | w, θ) = N o r m x [ϕ 0 + ϕ 1 w, σ 2]$ $p(x|w,\theta)=Norm_x[\phi_0+\phi_1w,\sigma^2]$
3. 以 $\theta$ 为参数将定义 $p(w|x)$ 的形状
参数为 $\phi_0,\phi_1,\sigma^2$ 。
参数可以通过最大化后验概率（MAP），或者最大似然概率（MLE）等来实现估计。
之后通过 $p(x|w)\times p(w)=p(x,w)$ 来计算联合概率密度，之后再通过贝叶斯概率公式，推导至 $p(w|x)$ 。图示如下：

在这个例子中，如果采用最大似然估计的方法，则两个模型生成的相同的正态分布。主要是因为x,w都是连续的，而且由线性模型相关联着，都是采用的正态分布来表示不确定性。如果使用MAP即最大后验估计，两个模型将会有不同的结果。

上面主要是以连续回归的方法进行的对比，下面将通过分类离散的方法进行对比，区分效果将更加明显

利用Discriminative model对 $p(w|x)$ 直接进行建模：
（注： $w$ 在此就是 $y$ ）
1. 为 $p(w)$ 选择一个合适的概率分布形式
比如选择 $w$ 服从伯努利分布，如图所示：

2. 通过 $x$ 的函数来作为 $p(w)$ 概率分布形式中的参数
对伯努利分布中的参数 $\lambda$ 用 $x$ 的函数进行建模表示：

$p (w | x, θ) = B e r n w [s i g [ϕ 0 + ϕ 1 x]] = B e r n w [1 1 + e x p [ - ϕ 0 - ϕ 1 x ]]$ $p(w|x,\theta)=Bern_w[sig[\phi_0+\phi_1x]]=Bern_w[\frac{1}{1+exp[-\phi_0-\phi_1x]}]$
3. 以 $\theta$ 为参数将定义 $p(w|x)$ 的形状
参数为 $\phi_0,\phi_1$ . note： this is a logistic regression model。

利用Generative模型对 $p(x|w)$ 或者是 $p(x,w)$ 进行建模：
1. 为 $p(x)$ 选择一个合适的概率分布形式
比如选择 $x$ 服从正态分布，如图所示：

2. 通过离散的二进制值 $w$ 的函数来作为 $p(x)$ 概率分布形式中的参数
将正态分布的均值 $\mu$ 由 $x$ 的线性函数表示，方差为一个常数。

$p (x | w, θ) = N o r m x [μ w, σ 2 w]$ $p(x|w,\theta)=Norm_x[\mu_w,\sigma_w^2]$
3. 以 $\theta$ 为参数将定义 $p(w|x)$ 的形状
参数为 $\mu_0,\mu_1,\sigma_0^2,\sigma_1^2$ 。

两者的对比如下图所示：

对于generative model，采用学习算法（learning algorithm）估计的是 $p(x|y)$ 模型，而采用推理算法（inference algorithm）直接结合先验概率 $p(y)$ ，推至联合概率密度和利用贝叶斯准则计算至后验概率 $p(y|x)$ 。

2015-9-1 艺少

优惠劵

Zhang_P_Y

关注关注

1
点赞

踩

1

收藏

觉得还不错? 一键收藏

打赏

0
评论

机器学习中的两个概率模型

discriminative model 和 generative model是机器学习算法中两种概率模型，用来实现对训练样本的概率分布进行建模，在实践中由于经常混淆，现在通过查阅资料，将两者的分别总结于此。不妨用stackoverflow上的一段描述来开启这个话题： Let’s say you have input data x and you want to classify the d
复制链接

扫一扫

专栏目录

概率论基础—什么是概率？

suncangan的博客

05-20 2450

写在前面：本文主要基于陈希孺先生《概率论与数理统计》一书和浙江大学《概率论与数理统计（第四版）》一书进行总结编写，并加入个人的理解，以期以更简单且系统的方式理解什么是概率这一问题，若有理解错误或编写不足之处敬请批评指正。...

概率论一些知识

zuoyonggang

01-19 4万+

目录第一节离散.连续.多维随机变量及其分布 1.1、几个基本概念点 1..2、随机变量及其分布第二节、从数学期望、方差、协方差到中心极限定理 2.1、数学期望、方差、协方差 2.2、中心极限定理第三节、从数理统计简史中看正态分布的历史由来 3.1、正态分布的定义 3.2、早期概率论：从萌芽到推测术 3.3、棣莫弗的二项概率逼近 3.4、贝叶斯方法 3.5、最小...

参与评论您还未登录，请先登录后发表或查看评论

推荐 7 种机器学习模型加权集成方法

数据派THU

03-26 584

来源：数据studio 机器学习杂货店‍‍‍ 本文约1300字，建议阅读8分钟本文中我们将介绍最常见的分类 & 回归任务的结果加权方法，也就是Blend操作。在竞赛中如果对多个预测结果进行集成，最方便的做法是直接对预测结果进行加权求和。此时不同任务，加权方法不同：分类任务：类别投票 & 概率值加权回归任务：预测值加权排序任务：排序次序加权目标检测任务：预测结果NMS语义分割任务：像...

机器学习_预测概率校准

大道至简

06-14 2380

我们在建模时通常根据准确性或准确性来评估其预测模型，但几乎不会问自己：“我的模型能够预测实际概率吗？但是，从商业的角度来看，准确的概率估计是非常有价值的（准确的概率估计有时甚至比好的精度更有价值）。来看一个例子。AB两个模型的AUC一样。但是根据模型A，你可以通过推荐普通马克杯来最大化预期的利润，然而根据模型B，小猫马克杯可以最大化预期的利润。在像这样的现实应用中，搞清楚哪种模型能够估算出更好的概率是至关重要的事情。

机器学习中的概率模型及使用案例

python收藏家的博客

03-11 885

概率模型是机器学习的重要组成部分，其目的是从数据中学习模式，并对新的、看不见的数据进行预测。它们是统计模型，捕捉数据中固有的不确定性，并将其纳入预测。概率模型用于各种应用，例如图像和语音识别、自然语言处理和推荐系统。近年来，在开发能够有效处理大型数据集的概率模型方面取得了重大进展。

机器学习——概率论

qq_34229228的博客

10-25 1429

概率论事件的关系与运算条件概率，全概率公式，贝叶斯公式随机变量的期望，方差协方差，相关系数，协方差矩阵概率分布：0-1分布，二项分布，高斯分布极大似然函数估计大数定律，伯努利大数定律，中心极限定理 ...

条件概率/全概率/贝叶斯公式

xdy1120的博客

10-17 1210

1、条件概率公式设A,B是两个事件，且P(B)&gt;0,则在事件B发生的条件下，事件A发生的条件概率（conditional probability)为： P(A|B)=P(AB)/P(B) 分析：一般说到条件概率这一概念的时候，事件A和事件B都是同一实验下的不同的结果集合，事件A和事件B一般是有交集的，若没有交集（互斥），则条件概率为0，例如： ① 扔骰子...

机器学习——概率模型

清风拂面

06-23 4406

概述——用一类图来表达变量相关关系的概率模型（概率模型将学习任务归结于计算变量的概率分布） P(A|B)=P(A,B)/P(B)——根据联合概率 P(A,B)推断 P(A|B)的过程具体说：假定所关心的变量集合为 Y，可观测变量集合为 O，其他变量的集合为 R “生成式”模型：考虑联合分布 P(Y,R,O) ”判别式“模型：考虑联合分布 P(Y,R|O) “推断”——利用已知变量推测...

机器学习模型.zip

最新发布

04-07

机器学习的研究主要分为两类研究方向：第一类是传统机器学习的研究，该类研究主要是研究学习机制，注重探索模拟人的学习机制；第二类是大数据环境下机器学习的研究，该类研究主要是研究如何有效利用信息，注重从巨量...

机器学习实战（六）模型评价标准

01-06

假设有下面两个分类器，哪个好？（样本中有A类样本90个，B 类样本10个。）、 A类样本 B类样本分类精度分类器C1 A*90（100%） A*10（0%） 90% 分类器C2 A*70 + B*20 （78%） A*5 + B*5 （50%） 75% ...

机器学习7：pytorch的逻辑回归

10-07

它指的是两个变量的分类，其中概率用于确定二元结果，因此“二项式”中的“bi”。结果为真或假 — 0 或 1。二项式逻辑回归的一个例子是预测人群中 COVID-19 的可能性。一个人要么感染了COVID-19，要么没有，必须...

电子科技大学机器学习大作业.7z

06-07

使用前200个样本来获得模型，并写出你所获得的模型。使用后52个样本做测试，汇报你所获得的泛化误差。编程实现对数回归，并给出教材89页上的西瓜数据集3.0上的结果。要求采用4折交叉验证法来评估结果。因为此处...

机器学习之逻辑回归

01-07

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别。它就是通过拟合一个逻辑函数（logit fuction）来预测一个事件发生的概率。所以它预测的是...

机器学习中概率图模型的一些知识

zycnice的博客

07-18 208

机器学习最重要的任务，是根据一些己观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测。概率模型(probabilistic model)提供了一种描述框架?将学习任务归结于计算变量的概率分布. 直接利用概率求和规则消去变量显然不可行，因为即便每个变量仅有两种取值的简单问题，其复杂度己至少是 0(2IYI+IRI) 另一方面，属性变暨之间往往存在复杂的联系，因此概率模型的学习，即基于训练样本来估计变量分布的参数往往相当困难.为了便于研究高效的推断和学习算法，需有一套能简

常见概率分布介绍

xu_fu_yong的专栏

07-11 5527

常见概率分布 Bernoulli分布 Bernoulli分布是单个二值随机变量分布, 单参数ϕ\phiϕ∈[0,1]控制,ϕ\phiϕ给出随机变量等于1的概率. 主要性质有: P(x)=px(1−p)1−x={p if x=1q if x=0 P(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}{p} &a...

常见的概率公式总结

热门推荐

nextdoor6的博客

09-08 6万+

1.古典概率般说来,如果在全部可能出现的基本事件范围内构成事件A的基本事件有a个,不构成事件A的事件有b个,则出现事件A的概率为: P(A)=a/(a+b) 例子: 同时掷两枚硬币，可能出现正正、反反、正反、反正四种可能的结果，每种可能出现概率1/4 2.条件概率公式描述：公式中P(AB)为事件AB的联合概率，P(A|B)为条件概率，表示在B条件下A的概率，P(B)为事件B的...

概率之结构化概率模型

u012119316的博客

07-26 735

结构化概率模型(structured probabilistic model)也称为图模型(graphical model)，是指使用图论中的“图”的概念来描述概率分布的分解。有两种主要的图模型：有向图和无向图。两种图模型都使用图,其中图的每个节点都对应着一个随机变量，连接两个随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用。有向(directed)模型使用带有有向边的图，...

生成方法vs判别方法+生成模型vs判别模型

年轻即出发，

01-09 2904

监督学习的方法可以分为2类，生成方法（generative approach）和判别方法（discriminative approach），所学到的模型分别为生成模型（generative model）和判别模型（discriminative model）。生成方法：由数据首先学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)。即通过学习先验分布来推导后验分布而进行分类 ...

机器学习之概率论

年少的勇气已经用完，剩下的就是三思而后行

06-07 1355

概率论研究的是事物的不确定性。它是大学数学课程之一，是统计学、信息论的前置课程。相对其他数学课而言，概率论的难度系数属中等，毕竟你在高中就学习过如何计算一个随机变量的期望、方差。从机器学习的视角来看，概率论是必须要了解的，但远不需要达到精通的程度。你只需要灵活运用它，去把机器学习世界的不确定性变量算清楚就足够了。因此，当你掌握概率论的窍门后，概率论就是纸老虎。我们先从计算某个事件的概率说起。概率是对事件发生可能性的刻画，概率越大事件发生的可能性越大。例如，中国国足与巴西国足将会在明天踢一场友谊赛。既有经验告

在机器学习中，什么是概率模型

09-17

概率模型通常包括两个重要的组成部分：参数和随机变量。参数是模型中固定的但未知的数值，代表了数据分布的特征。随机变量则是根据参数和已知数据生成的数据。概率模型通过已知数据来估计参数，进而生成新的数据或...

“相关推荐”对你有帮助么？

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交