监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出,这一模型的一般形式为决策函数
Y=f(x)
或者条件概率分布
P(Y|X)
监督学习方法有可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型
生成方法由数据学习联合分布概率P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型:
P(Y|X) = P(X,Y)/P(X)
典型的生成模型:朴素贝叶斯方法、隐马尔可夫模型
特点:生成方法可以还原出联合概率分布,而判别模型不行;生成方法的学习收敛速度快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型;当存在隐变量的时候,仍可以用生成学习的方法,此时判别方法不能使用
判别模型是由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型。典型的判别模型包括:k近邻法,感知机、决策树、LR、最大熵模型、支持向量机、提升方法和条件随机场
特点:直接面对预测,往往学习的准确率更高;由于直接学习,可以直接对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题