统计学习三要素------《统计学习方法》读书笔记_什么是统计学习，主要特点，三要素-CSDN博客

本文链接：https://blog.csdn.net/fxlou/article/details/79254684

名词解释
1. 输入空间：所有输入可能取值的集合，{ $X$ }；
2. 输出空间：所有输出可能取值的集合，{ $Y$ }；
3. 假设空间：由输入空间到输出空间的所有可能的映射的集合，
可以为决策函数的集合： $F=\{ f|Y=f(x)\}$ ，或条件概率的集合： $F=\{P|P(Y|X)\}$

统计学习的三要素为：模型，策略，方法。

1.模型

在监督学习中，模型是所要学习的条件概率分布 $P（y | x）$ 或决策函数 $y = f (x)$ 。在假设空间中，模型有无穷多个。

2.策略

策略是指如何在假设空间的无穷多个模型中选取最优模型，这里的“最优”就引出了如何评价模型的好坏的问题。
损失函数（loss function）： $L(Y,f(X))$ ,损失函数用于度量模型一次预测的好坏。
风险函数（risk function）： $R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy$ ，用于度量平均意义下模型的好坏。风险函数为损失函数的期望(expected loss)，但是这仅仅是理论上的定义。实际上，由于 $P（X,Y）$ 不可知，多采用经验风险(empirical loss): $R_{emp}=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$ 来代替，即求出训练样本集中损失函数的平均值。

两个基本策略：
当样本数量N趋于无穷大时， $R_{emp}$ 趋近于 $R_{exp}$ ，但实际情况中样本数量都是有限的，因此需采用一定的策略对经验风险 $R_{emp}$ 进行校正。

2.1 经验风险最小化（ERM）
在假设空间、损失函数和训练数据集确定的情况下，经验风险 $R_{emp}$ 函数式可以确定，可以采用经验风险最小化策略进行问题的求解：

m i n f \in F 1 N \sum i = 1 N L (y i, f (x i))

$_{_{f\in F}}^{min}\frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$
例如极大似然估计就是经验风险最小化的例子。但是当样本数量太少时，容易出现“过拟合(over-fitting)”的问题。
2.2 结构风险最小化（SRM）
结构风险在经验风险后加入正则化项（regularizer）或罚项（penalty term），用于限制模型的复杂程度，防止过度复杂的模型产生的过拟合问题。表达式如下：