统计学习方法学习笔记（一）：监督学习三要素

最新推荐文章于 2023-09-03 17:46:59 发布

小CC`

最新推荐文章于 2023-09-03 17:46:59 发布

阅读量547

点赞数

文章标签：学习机器学习概率论

本文链接：https://blog.csdn.net/caibaixiang/article/details/124690221

版权

监督学习三要素

监督学习主要包括模型，策略和算法三部分

模型

模型的定义
模型的定义和举例

生成模型

【注】需要输入和输出变量均为随机变量
在这里插入图片描述
典型的生成模型：朴素贝叶斯、隐马尔科夫模型

判别模型

【注】不需要输入和输出变量均为随机变量
在这里插入图片描述典型的生成模型：k近邻法、感知机、决策树

生成模型VS判别模型

在这里插入图片描述
机器学习的任务是从属性X预测标记Y，即求概率P(Y|X)。
对于判别式模型来说求得P(Y|X)，对未见示例X，根据P(Y|X)可以求得标记Y，即可以直接判别出来，如上图的左边所示，实际是就是直接得到了判别边界；而生成式模型求得P(Y,X)，对于未见示例X，你要求出X与不同标记之间的联合概率分布，然后大的获胜，如上图右边所示，并没有什么边界存在，对于未见示例（红三角），求两个联合概率分布（有两个类），比较一下，取那个大的。
判别式模型举例：要确定一个羊是山羊还是绵羊，用判别模型的方法是从历史数据中学习到模型，然后通过提取这只羊的特征来预测出这只羊是山羊的概率，是绵羊的概率。生成式模型举例：利用生成模型是根据山羊的特征首先学习出一个山羊的模型，然后根据绵羊的特征学习出一个绵羊的模型，然后从这只羊中提取特征，放到山羊模型中看概率是多少，在放到绵羊模型中看概率是多少，哪个大就是哪个。细细品味上面的例子，判别式模型是根据一只羊的特征可以直接给出这只羊的概率（比如logistic regression，这概率大于0.5时则为正例，否则为反例），而生成式模型是要都试一试，最大的概率的那个就是最后结果
在机器学习中任务是从属性X预测标记Y，判别模型求的是P(Y|X)，即后验概率；而生成模型最后求的是P(X,Y)，即联合概率。从本质上来说：判别模型之所以称为“判别”模型，是因为其根据X“判别”Y；而生成模型之所以称为“生成”模型，是因为其预测的根据是联合概率P(X,Y)，而联合概率可以理解为“生成”(X,Y)样本的概率分布（或称为依据）；具体来说，机器学习已知X，从Y的候选集合中选出一个来，可能的样本有(X,Y_1), (X,Y_2), (X,Y_3),……，(X,Y_n),实际数据是如何“生成”的依赖于P(X,Y)，那么最后的预测结果选哪一个Y呢？那就选“生成”概率最大的那个吧
在这里插入图片描述

策略

策略就是一种学习准则，用来在所有假设空间中选择出最优模型。
在这里插入图片描述
在风险函数中由于联合分布P(x,y)不是已知的，所以用估计值也就是经验风险替代风险函数。如下图所示，根据大数定律，当样本N趋于无限大的时候，经验损失趋于风险函数，这也是在训练模型时，数据越多模型会越好的原因。也可以从这方面来解释数据增强有效的原因。
在这里插入图片描述
现实中，训练样本N往往有限，为了防止模型过拟合，常在经验风险后面加一个惩罚项来构成结构风险。监督学习的策略就是使经验风险或者结构风险最小化。