统计学习方法
统计学习
1.本章主要是对统计学习所需要的概念知识做梳理。
对于一个有监督问题,我们希望根据样本训练出一个可以预测未知样本的模型。在于学习一个由输入到输出的映射,而这个映射就是模型。
首选需要确定一点:假设空间。即我们的模型是哪一类模型。首先假设要学习的模型属于某个函数集合。说白了就是一个带有参数的函数 fθ(X,Y) 。
然后,就是如何得到确定的模型,即确定 θ 的值。根据已知的样本 (X,Y) 和一个函数集(假设空间),得到一个较好的 θ 值。
在解决这个问题前,需要解决两个问题:1、什么是好的 θ 值;2、根据什么方法得到。其中第一个问题,就是要设计一个目标函数,尽量在样本都满足时,样本是最大的或者是最小的,这样子就转变为一个优化问题。第二问题就是要解这个优化问题。
2.主要介绍统计学习的三个要素,模型、策略、算法
模型:就是选择的函数集(包含了所有可能的模型的假设空间—-所有可能的条件概率分布和决策函数)
策略:按照什么样子的准则学习或者选择优化模型。统计学习的目标就是从假设空间中选择最优模型。
- 损失函数:一次预测的好坏。来度量预测的错误程度。
- 风险函数:平均意义下,模型预测的好坏。理论上,风险函数的联合概率分布是已知的,但在实际应用中是不可能。从而根据大数定理,用经验风险来逼近风险函数。
其中的策略包括:
1.经验风险最小化(ERM)
需要较大的样本。认为经验风险最小的模型最优。
2.结构风险最小化(MAP)
防止过度拟合。增加惩罚项,惩罚项跟模型的复杂度正相关。而模型的复杂度跟参数的多少有关。
算法:解优化目标问题。
3.模型的评价
当损失函数给定,基于损失函数的模型训练误差和模型的测试误差就成为评估方法。
训练误差,评价是不是一个容易学习的问题。
测试误差,评价对未知测试数据的预测能力。
4.模型的选择
1.正则化,处理过度拟合问题。
2.交叉验证,对于具有需要人工选择某个参数大小时,如正则化中的
λ
。