《统计学习方法》笔记（1）：重要概念

最新推荐文章于 2022-03-22 15:44:05 发布

峰峰jack

最新推荐文章于 2022-03-22 15:44:05 发布

阅读量1.1k

点赞数

分类专栏：数据挖掘文章标签：统计学习李航过拟合生成方法判别方法

本文链接：https://blog.csdn.net/elecjack/article/details/51007733

版权

数据挖掘专栏收录该内容

11 篇文章 1 订阅

订阅专栏

最近读李航博士的《统计学习方法》，获益良多。开篇李博士着重于基本概念和整体体系的介绍，本文仅就我自己的理解将个人认为重要的内容记述如下。

1、什么是监督学习和非监督学习？

就感性认知而言，分类、回归都是监督学习，聚类是非监督学习。

借用知乎上@王丰的回答，是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。

2、如何选择监督学习的模型？

其实也就是我们如何从一组模型中挑选最优的那一个。用奥卡姆剃刀原理来解释会比较简明：在所有能够解释已知数据的模型中，应当选择相对简单的那个模型。

如果做更加学术化的解释，就需要先理解损失函数和风险函数的概念。损失函数度量模型一次预测结果的好坏，可用 $L(Y,f(X))$ 表示，常用的损失函数有 $(Y-f(X))^2$ 等；风险函数度量平均意义下预测结果的好坏，可用 $\int L(y,f(x))P(x,y)dxdy$ 表示。

经验风险最小化和结构风险最小化。一般情况下，风险函数中的P(x,y)未知，因此常用经验风险度量预测结果的好坏，公式如下。

$Rexp(f)=1/N\sum_{i=1}^{N}L(y_i,f(x_i))$

结构风险公式如下。之所以用到结构风险，就是不仅要考虑模型对已知数据的预测准确度，还要考虑模型的复杂度J(f)。实际应用中，我们不仅希望模型能够解释数据，还需要模型足够简单，在二者间寻求平衡。

$Rsrm(f)=1/N \sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$

3、什么是“过拟合”？

上一个问题中，为什么不仅要模型能够解释已知数据，还需要模型足够简单呢？因为如果不够简单，就可能出现“过拟合”，也就是模型可能非常好的解释了训练集样本，但对测试集样本的预测效果却非常差。

“过拟合”模型的维度一般高于实际模型。可以这样来理解，假设有三个样本点（x1,y1）、（x2,y2）、（x3,y3），实际模型为线性模型y=ax+b，当然预测结果和真实值间有小幅偏差；此时如果用更高维度的模型y=mx²+nx+h进行拟合，预测结果和真实值可以完全一致（三个点确定三个参数m、n、h）。这时，如果再来一个按照线性模型分布的点(x4,y4)，则线性模型能够很好的预测，而高维模型则由于“过拟合”无法正确预测。

4、如何避免”过拟合”？

避免“过拟合”的方法主要有正则化和交叉验证两种方法。

正则化是问题2中结构风险最小化的实现，由于存在正则化项（表征模型复杂度），可以有效避免生成过于复杂的模型。正则化可以取不同形式，例如回归问题中，损失函数是平方损失，正则化项是参数向量的二范数。

$Rsrm(f)=1/N \sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)=1/N \sum_{i=1}^{N}(y_i-f(x_i ))^2+\lambda/2\begin{Vmatrix} w \end{Vmatrix}^{2}$

交叉验证在实际中可能用得更多，其中最常用的又称K折交叉验证。以10折交叉验证为例，每次训练使用90%的数据样本，用剩余的10%样本进行验证并计算正确率；循环的将10个样本用作测试样本，即可求得10次交叉验证的正确率均值，也就是10折交叉验证的正确率。一般选用交叉验证正确率最高的模型。

5、什么是生成方法和判别方法？

所谓生成方法，是指根据联合概率分布P(X,Y)计算目标函数y=f(x)或者条件概率P(Y|X)的模型，也就是先知道联合概率分布，再建立目标模型；例如朴素贝叶斯法和隐马尔科夫法。

所谓判别方法，是直接学习和计算目标函数y=f(x)或者条件概率P(Y|X)的模型，简化了学习问题。例如k近邻、决策树、逻辑斯谛回归、SVM等。

峰峰jack

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》笔记（1）：重要概念

如何避免”过拟合”？避免“过拟合”的方法主要有正则化和交叉验证两种方法。正则化是结构风险最小化的实现，由于存在正则化项（表征模型复杂度），可以有效避免生成过于复杂的模型。正则化可以取不同形式，例如回归问题中，损失函数是平方损失，正则化项是参数向量的二范数。
复制链接

扫一扫