监督学习三要素
监督学习主要包括模型,策略和算法三部分
模型
模型的定义
生成模型
【注】需要输入和输出变量均为随机变量
典型的生成模型:朴素贝叶斯、隐马尔科夫模型
判别模型
【注】不需要输入和输出变量均为随机变量
典型的生成模型:k近邻法、感知机、决策树
生成模型VS判别模型
机器学习的任务是从属性X预测标记Y,即求概率P(Y|X)。
对于判别式模型来说求得P(Y|X),对未见示例X,根据P(Y|X)可以求得标记Y,即可以直接判别出来,如上图的左边所示,实际是就是直接得到了判别边界;而生成式模型求得P(Y,X),对于未见示例X,你要求出X与不同标记之间的联合概率分布,然后大的获胜,如上图右边所示,并没有什么边界存在,对于未见示例(红三角),求两个联合概率分布(有两个类),比较一下,取那个大的。
判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率是多少,哪个大就是哪个。细细品味上面的例子,判别式模型是根据一只羊的特征可以直接给出这只羊的概率(比如logistic regression,这概率大于0.5时则为正例,否则为反例),而生成式模型是要都试一试,最大的概率的那个就是最后结果
在机器学习中任务是从属性X预测标记Y,判别模型求的是P(Y|X),即后验概率;而生成模型最后求的是P(X,Y),即联合概率。从本质上来说:判别模型之所以称为“判别”模型,是因为其根据X“判别”Y;而生成模型之所以称为“生成”模型,是因为其预测的根据是联合概率P(X,Y),而联合概率可以理解为“生成”(X,Y)样本的概率分布(或称为 依据);具体来说,机器学习已知X,从Y的候选集合中选出一个来,可能的样本有(X,Y_1), (X,Y_2), (X,Y_3),……,(X,Y_n),实际数据是如何“生成”的依赖于P(X,Y),那么最后的预测结果选哪一个Y呢?那就选“生成”概率最大的那个吧
策略
策略就是一种学习准则,用来在所有假设空间中选择出最优模型。
在风险函数中由于联合分布P(x,y)不是已知的,所以用估计值也就是经验风险替代风险函数。如下图所示,根据大数定律,当样本N趋于无限大的时候,经验损失趋于风险函数,这也是在训练模型时,数据越多模型会越好的原因。也可以从这方面来解释数据增强有效的原因。
现实中,训练样本N往往有限,为了防止模型过拟合,常在经验风险后面加一个惩罚项来构成结构风险。监督学习的策略就是使经验风险或者结构风险最小化。
算法
算法是如何求解最有模型,如梯度下降法。