判别模型:学习决策函数或者条件概率分布。直观来说学习的是类别之间的最优分隔面,反映的是不同类数据之间的差异
优点:直接面对预测,准确率往往很高。由于直接学习的是p(y|x)或者f(x),可以对数据进行各种程度的抽象,定义特征并使用特征,从而简化学习过程。
缺点:不能反应训练数据本身的特性
模型:K 近邻、感知机(神经网络)、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场
生成模型:学习联合概率分布,再根据贝叶斯公司计算出条件概率
优点:可以还原出联合分布。学习收敛速度更快,当样本容量增加时,学到的模型可以更快地收敛到真实模型。当存在隐变量时,只能使用生成模型。
缺点:学习和计算过程比较复杂
模型:朴素贝叶斯、隐马尔可夫模型、混合高斯模型、贝叶斯网络、马尔可夫随机场