统计学习方法三要素

统计学习方法由模型、策略和算法构成的,即 方法 = 模型 + 策略 + 算法

1. 模型

在监督学习过程中,模型就是所需要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
由决策函数表示的模型为非概率模型,其假设空间为:
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F = \{ f | Y=f_{\theta}(X), \theta \in R^n \} F={fY=fθ(X),θRn}由条件概率表示的模型为概率模型,其假设空间为:
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F = \{ P | P_{\theta}(Y|X), \theta \in R^n \} F={PPθ(YX),θRn}其中, F F F 是有一个参数向量决定的函数族,参数向量 θ \theta θ 取值于 n 维欧式空间。
注:在学习统计学习方法的过程中要注意区分这两种模型。


生成模型与判别模型

  1. 生成模型:由数据学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 作为预测的模型。 P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X, Y)}{P(X)} P(YX)=P(X)P(X,Y) 典型的生成模型有:朴素贝叶斯、隐马尔可夫模型。(学习收敛速度更快;只用于隐变量)
  2. 判别模型:由数据直接学习决策函数或者条件概率分布作为预测的模型。
    典型的判别模型有:k近邻发、感知机、决策树、logistic回归模型、最大熵模型、SVM、条件随机场和提升方法等。(准确率更高;简化学习问题)

2. 策略

策略就是按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优模型。

2.1 损失函数与风险函数

PS:损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
风险函数(期望损失)是理论上模型 f ( X ) f(X) f(X) 关于联合分布 P ( X , Y ) P(X, Y) P(X,Y) 的平均意义下的损失,学习的目标就是选择期望风险最小的模型,但是由于联合分布 P ( X , Y ) P(X, Y) P(X,Y) 是未知的,所以就用模型 f ( X ) f(X) f(X) 关于训练数据集的平均损失(即经验风险或经验损失)来替代学习准则。

2.2 经验风险最小化与结构风险最小化

当样本容量足够大时,经验风险最小化能够保证有很好的学习效果,比如极大似然估计(损失函数为对数损失函数)。由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。结构风险最小化(正则化)就是为了防止过拟合而提出的策略,结构风险即在经验风险后加上表示模型复杂度的正则化项或惩罚项。
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N} \sum\limits_{i=1}^NL(y_{i}, f(x_{i})) + \lambda J(f) Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)
贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子。
注:学习“奥卡姆剃刀”原则。

3. 算法

算法是指学习模型的具体计算方法,即最优化问题的求解方法,比如SGD。


那么如何选择一个最优模型呢?即选择复杂度适当的模型,以达到是测试误差最小的学习目的。

  1. 正则化
  2. 交叉验证

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值