生成模型和判别模型

最新推荐文章于 2024-02-23 10:01:03 发布

青青大肥羊

最新推荐文章于 2024-02-23 10:01:03 发布

阅读量211

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/qq_31425127/article/details/81282715

版权

machine learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

基础概念

1、监督学习的任务就是学习一个模型，然后根据这个学习好的模型，给定输入预测相应的输出。该模型的一般表达为Y=F(x)（F为输入到输出的映射关系），或者为条件概率P(y|x)（给定x求y的发生概率）
2、监督学习方法分为生成方法和判别方法，学习到的模型对应为生成模型和判别模型

生成方法和生成模型

生成模型主要求解联合分布。举个例子，有训练集（X,Y），X为输入特征，Y为类别标签，(x,y)为其中一个样本。以朴素贝叶斯为例，我们要求的目标联合分布P(x,y)=P(x|y)*P(y)，这样就将求联合分布的问题转化成了求类别条件概率和类别先验概率的问题。
常见的生成模型有：高斯混合模型、朴素贝叶斯和隐马尔科夫模型等

判别方法和判别模型

判别模型主要求解条件概率P(y|x)或者决策函数F(x)，P(y|x)一般用于分类，表示输入特征x，求输出类别是y的概率；F(x)一般用于回归，表示输入特征x，得到的一个预测值。
常见的判别模型有：支持向量机、决策树、感知器、k近邻、逻辑回归、线性回归、条件随机场(CRF)

生成模型和判别模型的优缺点

生成模型：生成模型学习联合分布P(X,Y)。不能反映
优点：
1、给出的是联合分布，可以从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度。但它不管分类边界在哪
2、可以由联合分布得出其他更多的信息，如条件分布和边缘分布
3、收敛速度快，即当样本数量较多时，生成模型能更快的收敛于真实模型
4、能够应付存在隐变量的情况，比如混合高斯模型就是含有隐变量的生成方法
缺点：
1、联合分布能提更多的信息，但也需要更多的样本和计算资源
2、多数情况下判别模型效果较好
判别模型：判别模型学习决策函数F(X)或者条件分布P(Y|X)。
优点：
1、节约计算资源，需要的样本数量也较生成模型少
2、利用训练数据的类别标签信息，直接面对预测，准确率较高
3、由于直接学习，因此不需要求解条件概率，所以允许我们对输入进行抽象（降维、构造等），从而能够简化学习问题。
缺点：
1、不能反映训练数据本身的特性，但它寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。
2、没有生成模型的上述优点