统计学习方法三要素

最新推荐文章于 2022-12-02 11:05:44 发布

好运来2333

最新推荐文章于 2022-12-02 11:05:44 发布

阅读量884

点赞数

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/qq_33254870/article/details/100116641

版权

MachineLearning 专栏收录该内容

12 篇文章 7 订阅

订阅专栏

统计学习方法由模型、策略和算法构成的，即方法 = 模型 + 策略 + 算法。

1. 模型

在监督学习过程中，模型就是所需要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
由决策函数表示的模型为非概率模型，其假设空间为：
$\{ f | Y=f_{\theta}(X), \theta \in R^n \}$ 由条件概率表示的模型为概率模型，其假设空间为：
$\{ P | P_{\theta}(Y|X), \theta \in R^n \}$ 其中， $F$ 是有一个参数向量决定的函数族，参数向量 $\theta$ 取值于 n 维欧式空间。
注：在学习统计学习方法的过程中要注意区分这两种模型。

生成模型与判别模型

生成模型：由数据学习联合概率分布 $P (X, Y)$ ，然后求出条件概率分布 $P (Y ∣ X)$ 作为预测的模型。 $P(Y|X)=\frac{P(X, Y)}{P(X)}$ 典型的生成模型有：朴素贝叶斯、隐马尔可夫模型。（学习收敛速度更快；只用于隐变量）
判别模型：由数据直接学习决策函数或者条件概率分布作为预测的模型。
典型的判别模型有：k近邻发、感知机、决策树、logistic回归模型、最大熵模型、SVM、条件随机场和提升方法等。（准确率更高；简化学习问题）

2. 策略

策略就是按照什么样的准则学习或选择最优的模型，统计学习的目标在于从假设空间中选取最优模型。

2.1 损失函数与风险函数

PS：损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
风险函数（期望损失）是理论上模型 $f (X)$ 关于联合分布 $P (X, Y)$ 的平均意义下的损失，学习的目标就是选择期望风险最小的模型，但是由于联合分布 $P (X, Y)$ 是未知的，所以就用模型 $f (X)$ 关于训练数据集的平均损失（即经验风险或经验损失）来替代学习准则。

2.2 经验风险最小化与结构风险最小化

当样本容量足够大时，经验风险最小化能够保证有很好的学习效果，比如极大似然估计（损失函数为对数损失函数）。由于现实中训练样本数目有限，甚至很小，所以用经验风险估计期望风险常常并不理想，要对经验风险进行一定的矫正。结构风险最小化（正则化）就是为了防止过拟合而提出的策略，结构风险即在经验风险后加上表示模型复杂度的正则化项或惩罚项。
$R_{srm}(f)=\frac{1}{N} \sum\limits_{i=1}^NL(y_{i}, f(x_{i})) + \lambda J(f)$
贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation，MAP）就是结构风险最小化的一个例子。
注：学习“奥卡姆剃刀”原则。

3. 算法

算法是指学习模型的具体计算方法，即最优化问题的求解方法，比如SGD。

那么如何选择一个最优模型呢？即选择复杂度适当的模型，以达到是测试误差最小的学习目的。

正则化
交叉验证

好运来2333

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法三要素

统计学习方法由模型、策略和算法构成的，即方法 = 模型 + 策略 + 算法。1. 模型在监督学习过程中，模型就是所需要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。由决策函数表示的模型为非概率模型，其假设空间为：F={f∣Y=fθ(X),θ∈Rn}F = \{ f | Y=f_{\theta}(X), \theta \in R^n \}F={f...
复制链接

扫一扫

专栏目录