统计学习三要素

统计学习方法都是由模型、策略和算法构成的,即统计学习方法由三要素构成。即:方法 = 模型 + 策略 + 算法

监督学习、非监督学习和强化学习都拥有这三要素。可以说构建一种统计学习方法就是确定具体的统计学习三要素。

模型

统计学习首先要考虑的问题是什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数, 那么模型的假设空间就是所有这些线性函数构成的函数集合假设空间中的模型般有无穷多个。

  1. 假设空间用 F 表示假设空间可以定义为决策函数的集合
    F = { f I Y=f(X) }
    其中, X和Y是定义在输入空间X 和输出空间Y上的变量。
  2. 假设空间也可以定义为条件概率的集合
    F={P I P(Y I X) }
    其中, X和 Y是定义在输入空间 X 和输出空间Y上的随机变量。

策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型统计学习的目标在于从假设空间中选取最优模型。

  • 损失函数:度量模型一次预测的好坏
    监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入 X,由 f(X) 给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用个损失函数 (loss function) 或代价函数 (cost function) 来度量预测错误的程度.损失函数是f(X) 和 Y的非负实值函数,记作 L(Y,f(X)) 。
    统计学习常用的损失函数有 0-1 损失函数、平方损失函数 、绝对损失函数、 对数损失函数(也叫对数似然损失函数)
    损失函数值越小,模型就越好
  • 风险函数:度量平均意义下模型预测的好坏
    由于模型的输入、输出 (X,η 是随机变量, 遵 循联合分布P(X,Y) ,所以损失函数的期望是
    Rexp = EP[ L(Y,f(X))]= ∫XxY L(y,f(x)) P(x,y)dxdy
    理论上模型 f(X) 关于联合分布 P(X,Y) 的平均意义下的损失,称为风险函数 (risk function) 或期望损失 (expected loss)。
    学习的目标就是选择期望风险最小的模型

算法

算法是指学习模型的具体计算方法统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

统计学习方法之间的不同,主要来自其模型、策略、算法的不同。确定了模型、策略、算法,统计学习的方法也就确定了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值