统计学习方法三要素

    本文节选自李航博士《统计学习方法》第一章第三节的内容。文中将统计学习方法简单表示为如下公式。另外,后文中提及的内容主要是针对监督学习进行说明。

方法=模型 + 策略 + 算法

    监督学习过程中,模型就是所要学习的条件概率分布或决策函数(即训练集到样本集的映射函数)。其假设空间包括所有可能的条件概率分布或决策函数。

    策略用于帮助从假设空间中选择最优模型。此时引入损失函数和风险函数,前者是对衡量模型一侧预测的好坏,风险函数是度量平均意义下模型预测的好坏。更直观的讲应该是度量预测错误的程序。如以下常见的损失函数。

    这样最优模型就是期望风险的最小化,即

    实际使用过程中,仅考虑样本的影响容易造成“过拟合”现象,所以引出了结构风险最小化的概念。它是为了防止过拟合而提出的策略,结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。在假设空间、损失函数以及训练集确定的情况下,结构风险的定义如下。

    故最优模型转换为求解最优化问题

    算法指学习模型的具体计算方法。

    所以,模型训练的本质是基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法求解最优模型。

 

参考文献:

  1. 李航. 统计学习方法. 清华大学出版社, 2012

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值