统计学习方法:概论

1、叙述了统计学习的定义、研究对象、和方法;
2、叙述了监督学习
3、提出统计学些方法三要素:模型、策略、和算法
4、介绍模型选择:正则化、交叉验证、学习的泛化能力
5、介绍生成模型和判别模型
6、介绍监督学习的方法的应用:分类问题、标注问题与回归问题

统计学习

统计学习的特点

统计学习(statistical learning)是关于计算机基于数据 构建概率统计模型并运用模型对数据进行预测分析的一门学科,统计学习也成为了统计机器学习
统计学习主要特点:
1)统计学习以计算机和网络为平台,建立再计算机及网络之上
2)统计学习以数据为研究对象,是数据驱动的学科
3)统计学习的目的是对数据进行预测和分析
4)统计学习以方法为中心,统计学些方法构建模型并应用模型进行预测分析
5)统计学习是概率论、统计学、信息论、计算理论、最优化理论、及计算机科学多领域的交叉学科,并且再发展逐步形成独自的理论与方法论

统计学习的对象

数据
从数据出发,提取数据特征,抽象数据模型、发现数据中的知识,又回到数据的分析与预测中去。

统计学习的目的

对数据进行预测与分析特别是对未知数据的进行预测与分析
对数据的预测和分析是通过构建概率统计模型实现的,统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型对数据进行准确的预测和分析,同时尽可能的提高学习效率。

统计学习方法

基于数据构建统计模型,从而对数据进行预测和分析。
统计学习由:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)等组成
统计学方法三要素:模型、策略、和算法
统计学习方法步骤:
1)得到有限的训练数据集合
2)确定包含所有可能的模型的假设空间,即学习模型集合
3)确定模型的选择的准侧,即学习的策略
4)实现求解最优模型的算法,即学习的算法
5)通过学习方法选择最优模型
6)利用学习的最优模型对数据进行预测和分析

统计学习的研究

统计学习方法、统计学习理论、统计学习应用

监督学习

基本概念

输入空间、特征空间、输出空间

输入-》输入空间
输出-》输出空间
输入一般由特征向量表示
特征向量-》特征空间

联合概率分布

输入输出的随机变量XY遵循联合概率分布P(X,Y)

假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。
学习的目的就在于找到最好的这样的模型。模型属于输入控件到输出空间的映射集合,这个集合就是假设空间(hypothesis space)

问题的形式化

统计学习三要素

模型

监督学习中 ,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数

策略

按照什么样的准则学习或者选择最优模型

损失函数和风险函数

统计学习中常用的损失函数:
1)0-1损失函数
在这里插入图片描述
2) 平方损失函数
在这里插入图片描述
3) 绝对损失函数
在这里插入图片描述
4) 对数损失函数对数离散损失函数
在这里插入图片描述
损失函数越小,模型越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合概率分布P(X,Y),所以损失函数的期望是:
在这里插入图片描述
在给定训练集下,模型f(X)关于训练集的平均损失称为经验风险(empirical risk)或者经验损失(empirical loss)
在这里插入图片描述

经验风险最小化与结构风险最小化

在假设空间、损失函数、以及训练数据集确定情况下,经验风险函数式就可以确定。经验风险最小化的策略认为,经验风险最小的模型就是最优模型,根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:
在这里插入图片描述
最大似然估计就是经验风险最小化的一个例子。当模型时条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

结构风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来的策略,等价于正则化。
结构风险在经验风险的基础上增加标识模型复杂度的正则化项或者罚项。
在这里插入图片描述
其中J(f)标识模型复杂度
贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。当模型时条件概率分布、损失函数是对数损失函数、模型复杂度由模型的闲言概率标识时,结构风险最小化就等价最大后验概率估计

结构风险最小化的策略认为结构风险最小的模型是最优模型
在这里插入图片描述

算法

算法指的学习模型的具体计算方法。
统计学习的问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。

模型评估与模型选择

训练误差与测试误差

正则化与交叉验证

正则化

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或者罚项。正则化项一般是模型负责度的单调递增函数。
正则化一般形式如下:
在这里插入图片描述
正则化项可以取不同的形式。例如回归问题,损失函数是平方损失,正则化项可以是参数向量L2范数:
在这里插入图片描述
正则化项也可以是参数向量的L1范数
在这里插入图片描述

交叉验证

简单交叉验证

S折交叉验证

留一交叉验证

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值