统计学习

基本概念

输入空间与输出空间:在监督学习中,将输入输出所有可能取值的集合分表称为输入空间与输出空间;

每一个具体的输入是一个实例,通常有特征向量来表示。这时候所有特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。

监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。训练数据由输入和输出组成。

模型属于由输入空间到输出空间的映射集合,这个集合就是假设空间(hypothesis space)。

统计学习三要素

方法=模型+策略+算法

监督学习过程中:模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。
策略:有了模型的假设空间,统计学习算法需要考虑按照什么样的准则学习或者选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。

模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或者经验损失(empirical loss),记做Remp(f)=1/N求和1-N L(yi,f(xi))

期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险Remp(f)趋于期望风险Remp(f)。但是训练样本数目有限,因此经验风险估计期望风险常常不理想,这就涉及到:经验风险最小化和结构风险最小化。

经验风险最小化和结构风险最小化

经验风险最小化求最优模型就是求解最优化问题:

训练误差

学习到的模型是Y=f(X);
训练误差是模型Y=f(X)关于数据集的平均损失:
R

测试误差

反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。
测试误差小的方法具有更好的预测能力,是更有效的方法,通常将学习方法对未知数据的预测能力称为泛化能力(generalization ability)。

准确率

误差率

过拟合与模型选择

当假设空间含有不同复杂度的模型时,就需要面临模型选择的问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值