生成模型与判别模型的区别与联系

最新推荐文章于 2023-06-27 15:02:05 发布

花梦飞

最新推荐文章于 2023-06-27 15:02:05 发布

阅读量2.6k

点赞数 6

分类专栏：生成模型文章标签：生成模型机器学习判别模型朴素贝叶斯

本文链接：https://blog.csdn.net/u013972559/article/details/85067158

版权

本文详细介绍了生成模型和判别模型的概念、思想以及它们在机器学习中的应用。生成模型通过学习联合概率分布P(X,Y)，然后求解条件概率P(Y|X)，而判别模型直接学习决策函数或条件概率分布。文中以朴素贝叶斯算法为例，阐述了生成模型的原理和实现，并对比了两者的特点：判别模型更关注异类数据的差异，学习条件概率，而生成模型则反映了同类数据的相似度和数据分布。" 16944373,781773,OCI批量获取数据的关键步骤与注意事项,"['数据库开发', '数据访问', 'C++编程', 'Oracle接口', '数据库接口']

摘要由CSDN通过智能技术生成

1、概述

监督学习的任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出。这个模型的一般形式为决策函数：

Y=f(X)

或者条件概率分布：

p(Y|X)

监督学习方法又可以分为生成方法（generative approach）和判别方法（discriminative approach）。所学到的模型分别称为生成模型（generative model）和判别模型（discriminative model）。

2、判别模型

2.1 判别方法的定义

判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 p(Y|X) 作为预测的模型，即判别模型。判别方法关心的是对给定的输入，应该预测什么样的输出。典型的判别模型包括：k近邻法、感知机、决策树等。

2.2 判别模型的思想

判别模型直接对条件概率 p(Y|X) 建模，基本思想是在有限样本条件下，建立判别函数，直接研究预测模型。下面我们利用贝叶斯决策论里面的知识，利用判别方法对测试数据进行建模求解。

这里定义训练数据为 (X,Y) ， $Y=\left \{ y_{1},y_{2},...,y_{n} \right \}$ 是n个训练样本的标签， $X=\left \{ x_{1},x_{2},...,x_{n} \right \}$ 是n个训练样本的特征。定义单个测试数据为 $(\tilde{x},\tilde{y})$ , $\tilde{y}$ 为测试数据的类别， $\tilde{x}$ 是测试样本的特征。

训练完毕后，输入测试数据，判别模型直接给出的是 $p(\tilde{y}|\tilde{x})$ ，即输出（类别）关于输入（特征）的条件分布，实际上，这个分布的条件还有训练数据---------因为实际上我们是“看过”训练数据之后，学习到了对数据分布的后验认识，然后根据这个认识和测试样本的特征来做出测试样本属于哪个类别的决策的，所以有 $p(\tilde{y}|\tilde{x})=p(\tilde{y}|\tilde{x},X,Y)$ 。

我们认为这个条件分布 $p(\tilde{y}|\tilde{x},X,Y)$ 由参数 $\theta$ 决定的，即 $p(\tilde{y}|\tilde{x},\theta )$ ……（2.1）
那么如何由 $p(\tilde{y}|\tilde{x},\theta )$ 得到 $p(\tilde{y}|\tilde{x})$ 呢？如果我们可以求出参数 $\theta$ 关于训练数据的的后验分布 $P(\theta |X,Y)$ （这其实就是学习过程），那么就可以由

$P(\tilde{y}|\tilde{x})=P(\tilde{y}|\tilde{x},X,Y)=\int P(\tilde{y},\theta |\tilde{x},X,Y)d\theta =\int P(\tilde{y}|\tilde{x},\theta )\cdot P(\theta |X,Y)d\theta$ ……（2.2）
来得到想要的答案（关于②如何得到，请参考其他地方的讨论PRML第一章公式1.68如何推导？ - 机器学习 - 知乎，第31页公式1.68怎么推导的啊..）。

所以现在问题转化成了求条件分布的参数 $\theta$ 关于训练数据 (X,Y) 的后验分布 $P(\theta |X,Y)$ 。那么我们来看看怎么求这个后验分布。条件分布关于训练数据的似然函数

$P(Y|X,\theta )=L(\theta )=\prod_{i-1}^{n}P(y_{i}|x_{i},\theta )$ ……(2.3)
有没有发现 $P(Y|X,\theta )$ 和 $P(\theta |X,Y)$ 有一点像？像是 $\theta$ 和Y互换了位置，互为条件概率，可以考虑使用贝叶斯公式来进行转化，即

$P(\theta |X,Y)=\frac{P(Y|X,\theta )\cdot P(\theta )}{P(Y|X)}$ ……（2.4）
所以现在问题又进行了转化，变成了求条件分布关于训练数据的似然函数、参数 $\theta$ 的先验分布和Y关于X的条件分布三个小问题。我们已经知道似然函数怎么求，先验分布也不需要求（先验知识，就是我们在解决问题之前已经知道的知识，在这里就是我们认为参数是未观察到的随机变量，其本身也可有分布【贝叶斯学派】），而

$P(Y|X)=\int P(Y,\theta |X)d\theta =\int P(Y|X,\theta )\cdot P(\theta )d\theta$ ……（2.5）
至此问题已经解决，综合上述（1）-（5）各式，我们终于可以求出输出关于输入的条件分布啦！

$P(\tilde{y}|\tilde{x})=\int P(\tilde{y}|\tilde{x},\theta )\cdot \frac{P(Y|X,\theta )\cdot P(\theta )}{\int P(Y|X,\theta )\cdot P(\theta )d\theta }d\theta$ ……（2.6）

(6)中的两个积分的计算是很麻烦的，在实际解决问题的过程中要想办法省略掉。
对于(2)中积分公式可以使用variational inference的方法干掉，variational inference用一句话来说就是：如果训练样本足够多的话，可以使用 $\theta$ 的最大后验分布 $\theta _{map}$ 来对 $\theta$ 进行点估计(point estimate)。即有：