读统计学习方法：1.2/1.3节-CSDN博客

本文链接：https://blog.csdn.net/qq_34766889/article/details/88430133

监督学习的任务： 学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。
基本概念：
1.输入空间、特征空间与输出空间

输入与输出空间：输入与输出所有可能取值的集合。
输入与输出空间：可以是有限元素的集合，也可以是整个欧式空间。它们可以是同一个也可以是不同的空间。
输出空间远远小于输入空间。
每个具体的输入是一个实例，通常由特征向量表示。所有特征向量存在的空间称为特征空间。模型实际上都是定义在特征空间上的。
输入实例x的特征向量：
在这里插入图片描述
输入变量与输出变量均为连续变量的预测问题称为回归问题;

输出变量为有限个离散变量的预测问题称为分类问题

输入变量与输出变量均为变量序列的预测问题称为标注问题

2.联合概率分布
统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
3.假设空间
监督学习的目的在于：学习一个输入到输出的映射。这一映射由模型来表示。
假设空间：模型属于由输入空间到输出空间映射的集合。假设空间的确定意味着学习范围的确定。
监督学习的模型可以是概率模型或非概率模型。

问题的形式化：
监督学习分为学习和预测两个过程。

统计学习三要素：
方法=模型+策略+算法
模型有两种形式，一种是概率模型（条件概率分布P(Y|X)），另一种形式是非概率模型（决策函数Y = f(X)）
策略：
损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
用一个损失函数或代价函数来度量预测错误的程度。
在这里插入图片描述
损失函数的期望：

被称为风险函数或期望损失。其中P(X,Y)为输入输出随机变量X,Y的联合概率分布。

根据大数定律，当N趋近于无穷大的时候，经验风险函数就趋近于风险函数。

经验风险最小化：
在这里插入图片描述
经验风险最小化的一个例子：极大似然估计。
当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化=极大似然估计。
**结构风险最小化：**是为了防止过拟合而提出来的策略。结构风险最小化等于正则化。
在这里插入图片描述
是一个大于等于0的系数，用来权衡经验风险和模型复杂度。
结构风险最小化的一个例子：贝叶斯估计中的最大后验概率估计。
当模型是条件概率分布、损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化=最大后验概率估计。
最优模型，就是求解最优化问题：
在这里插入图片描述
算法：
学习模型的具体计算方法。统计学习的算法成为求解最优化问题的算法。