1、概述
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:
或者条件概率分布:
监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。
2、判别模型
2.1 判别方法的定义
判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型,即判别模型。判别方法关心的是对给定的输入,应该预测什么样的输出。典型的判别模型包括:k近邻法、感知机、决策树等。
2.2 判别模型的思想
判别模型直接对条件概率建模,基本思想是在有限样本条件下,建立判别函数,直接研究预测模型。下面我们利用贝叶斯决策论里面的知识,利用判别方法对测试数据进行建模求解。
这里定义训练数据为,是n个训练样本的标签,是n个训练样本的特征。定义单个测试数据为,为测试数据的类别,是测试样本的特征。
训练完毕后,输入测试数据,判别模型直接给出的是,即输出(类别)关于输入(特征)的条件分布,实际上,这个分布的条件还有训练数据---------因为实际上我们是“看过”训练数据之后,学习到了对数据分布的后验认识,然后根据这个认识和测试样本的特征来做出测试样本属于哪个类别的决策的,所以有。
我们认为这个条件分布由参数决定的,即……(2.1)
那么如何由得到呢?如果我们可以求出参数关于训练数据的的后验分布(这其实就是学习过程),那么就可以由
……(2.2)
来得到想要的答案(关于②如何得到,请参考其他地方的讨论PRML第一章公式1.68如何推导? - 机器学习 - 知乎,第31页公式1.68怎么推导的啊..)。
所以现在问题转化成了求条件分布的参数关于训练数据的后验分布。那么我们来看看怎么求这个后验分布。条件分布关于训练数据的似然函数
……(2.3)
有没有发现和有一点像?像是和Y互换了位置,互为条件概率,可以考虑使用贝叶斯公式来进行转化,即
……(2.4)
所以现在问题又进行了转化,变成了求条件分布关于训练数据的似然函数、参数的先验分布和Y关于X的条件分布三个小问题。我们已经知道似然函数怎么求,先验分布也不需要求(先验知识,就是我们在解决问题之前已经知道的知识,在这里就是我们认为参数是未观察到的随机变量,其本身也可有分布【贝叶斯学派】),而
……(2.5)
至此问题已经解决,综合上述(1)-(5)各式,我们终于可以求出输出关于输入的条件分布啦!
……(2.6)
(6)中的两个积分的计算是很麻烦的,在实际解决问题的过程中要想办法省略掉。
对于(2)中积分公式可以使用variational inference的方法干掉,variational inference用一句话来说就是:如果训练样本足够多的话,可以使用的最大后验分布来对进行点估计(point estimate)。即有:
……(2.7)
所以我们干掉了第一个积分问题&