监督学习方法又可以分成两种:
1) 生产方法(Generative Approach)
2) 判别方法(DiscriminativeApproach)
所学到的模型分别称为生成式模型(Generative Model)和判别式模型(Discriminative Model)。
监督学习的任务就是学习一个模型(分类器),应用这一模型,对给定的输入预测相应的输出。这个模型的形式有两种:
- 决策函数: Y=f(X)
- 条件概率分布: P(Y|X)
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成式模型:
P(Y|X)=P(X,Y)/P(X)。
这样的方法之所以称为生成方法,是因为模型表达了给定输入X产生输出Y的生产关系。典型的生成模型有:混合高斯模型、朴素贝叶斯法和隐马尔科夫模型。
生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛到真实的模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型,即判别式模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻、感知机、决策树、逻辑回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
在监督学习中,生成方法和判别方法各有优缺点,适合于不同条件下的学习问题。