统计学习(1)-概述

1 概论

1.1 统计学习

(1)特点

statistical learning是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也称为统计机器学习
1. 以计算机及网络为平台
2. 研究对象是数据,数据驱动
3. 目的是对数据进行预测和分析
4. 以方法为中心
5. 多领域交叉

现在提到的机器学习,一般都是统计机器学习

(2)方法

主要是监督学习,半监督学习,非监督学习和强化学习等。

监督学习从给定的有限的训练集出发,假设数据是独立同分布的,而且假设要学习的模型属于某个函数的集合(称为假设空间)。从假设空间中选取一个最优的模型,让它对未知的数据有最优的预测,选取模型由算法实现。

这样就有了统计学习三要素
- Model
- Stratety
- Algorithm

进一步我们就知道了,统计学习方法的步骤
1. 得到训练集
2. 确定假设空间
3. 确定学习的策略,选择模型的准则
4. 实现求解最优模型的算法
5. 选择最优模型
6. 对新数据进行分析和预测

1.2 监督学习(Supervised Learning)

目的:学习一个模型,使得这个模型对于任意给定的输入,对其相应的输出有一个好的预测。

1.2.1 基本概念

  • 输入空间输出空间:输入与输出所有可能取值的集合
  • 特征空间特征向量存在的空间
  • 特征向量:每个具体的输入实例,通常都是由特征向量来表示

有的时候,输入空间和特征空间是相同的。习惯把输入变量写作$X$,输出变量写作$Y$,而实际的输入变量的值用小写字母$x,y$表示。变量是向量或者标量都可以,一般输入实例的特征向量就像下面这样:
xi=(x(1),x(2),x(3),.,x(n))T
表示第 i 个输入变量。

那么按照之前的说法,训练数据 是什么样的呢?训练数据是输入和输出的组合,所以其实是这样的:
T=(x1,y1),(x2,y2),.,(xN,yN
统计学习就是通过这样的训练数据的输入来学习模型,然后使用这个模型对测试数据进行预测。

之前还提到了,假设X,Y遵循联合概率分布 P(X,Y) ,而且这个分布是假设存在的,但是这个分布对于我们或者学习系统来说是未知的。(如果不存在,那就没办法学习了,没有规律对吧。如果已知了,就没有必要学习了,直接用就好了)所以学习过程就是要把这个分布的近似的定义找到。

既然有了概率分布的假设了,那么接下来就是对于这个分布的一些条件的定义。所以就有了假设空间hypothesis space)这个假设空间就是确定的我们学习的范围,也就是将我们把学习的模型(或者说分布)看作是一些已知的分布类型(可能有未知参数)的组合。给定的这些分布,就构成了假设空间。

1.2.2 统计学习的图形描述

GohPN.png
上图中,学习系统就是根据测试数据 找到让模型在训练集上的预测结果最优的参数 。学习的得到的模型,就是那个最优的函数(或者说分布)。然后通过得到的这个函数,将测试数据作为输入,就可以得到其近似的预测结果了。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值