1.监督学习分为生成模型和判别模型
有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有混合高斯模型、朴素贝叶斯法和隐形马尔科夫模型等,常见的判别方法有SVM、LR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。
2.生成模型
生成模型主要是求解联合概率密度,比如我们有数据集:(C,X),其中(c,x)表示其中一个样本,c为类别,x为特征。那么对于生成模型来说我们需要求解p(x,c)的联合概率密度,根据贝叶斯概率,p(x,c) = p(x|c)*p(c),所以我们的任务变成了求解p(x|c)的类别条件概率,和p(c)的类别先验概率。
生成模型的求解思路是:联合分布——->求解类别先验概率和类别条件概率
3.判别模型
还是上面的例子,比如有了(C,X),其中(c,x)表示一个样本数据,c为类别,x为特征,那么判别模型输出的就是p(c|x)这个条件概率模型,即输入特征x,求输出类别是c的概率(c关于x的条件概率)。
实际上,这个过程包含了我们“看过”训练数据得到的后验知识,根据这个后验知识和测试集的特征就可以判断出测试集的类别。p(c|x) = p(c|x , C,X),我们认为这个条件概率由参数theta决定,即p(c|x, theta)。
但是theta怎样求得呢?theta是模型“看过”训练集后得到的,即t