统计学习方法(第二版)李航——读书笔记I

第 1 章  统计学习及监督学习概论


1.1  统计学习

  统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)

1.1.1 统计学习的特点

  (1)统计学习以计算机及网络为平台
  (2)统计学习以数据为研究对象
  (3)统计学习的目的是对数据进行预测与分析
  (4)统计学习以方法为中心
  (5)统计学习是概率论统计学信息论计算理论最优化原理计算机科学多个领域的交叉学科

1.1.2 统计学习的对象

  统计学习研究的对象是数据(data)从数据出发提取数据的特征抽象出数据的模型发现数据中的知识,又回到对数据的分析与预测中去。

1.1.3 统计学习的目的

  统计学习总的目标是考虑学习什么样的模型如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率

1.1.4 统计学习的方法

  统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习无监督学习强化学习等组成。

统计学习方法可概述如下:
(1)得到一个有限的训练数据集合
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析

1.1.5 统计学习的研究

  统计学习的研究一般包含统计学习方法统计学习理论统计学习应用三个方面。

统计学习研究可概述如下:
(1)统计学习方法的研究旨在开发新的学习方法
(2)统计学习理论的研究在于探求统计学习方法的有效性和效率,以及基本的理论问题
(3)统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去

1.1.6 统计学习的重要性

统计学习的重要性主要体现如下:
(1)统计学习是处理海量数据的有效方法
(2)统计学习是计算智能化的有效手段
(3)统计学习是计算机科学发展的一个重要部分


1.2  统计学习的基本分类

  统计学习或机器学习一般包括监督学习无监督学习强化学习。有时还包括半监督学习主动学习

1.2.1 监督学习

  监督学习(supervised learning) 是指标注数据中学习预测模型的机器学习问题标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出监督学习的本质是学习输入到输出的映射的统计规律
  (1)输入空间、输出空间和特征空间
  输入空间:输入所有可能取值的集合
  输出空间:输出所有可能取值的集合
  特征空间:所有特征向量存在的空间
  注1:输入与输出空间可以是有限元素的集合,也可以是整个欧式空间;输入空间与输出空间可以是同一个空间,也可以是不同的空间;通常输出空间远远小于输入空间。
  注2:特征空间的每一维对应一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
  (2)联合概率分布
  监督学习假设输入与输出的随机变量 X X X Y Y Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) P ( X , Y ) P(X,Y) P(X,Y)表示分布函数,或分布密度函数。
  统计学习假设数据存在一定的统计规律,训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。
  (3)假设空间
  模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间也即意味着监督学习所要学习的范围。
  (4)问题的形式化
  监督学习分为学习和预测两个过程,由学习系统与预测系统共同完成,可以用图1.1来描述。

1.2.2 无监督学习

  无监督学习(unsupervised learning) 是指无标注数据中学习预测模型的机器学习问题无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率无监督学习的本质是学习数据中的统计规律或潜在结构
  无监督学习可用于对已有数据的分析,也可用于对未来数据的预测。它和监督学习有类似的流程,如图1.2所示。

1.2.3 强化学习

  强化学习(reinforcement learning) 是指智能系统与环境的连续互动中学习最优行为策略的机器学习问题强化学习的本质是学习最优的序贯决策
  强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的。智能系统与环境的互动如图1.3所示。

1.2.4 半监督学习与主动学习

  半监督学习(semi-supervised learning) 是指利用标注数据和未标注数据学习预测模型的机器学习问题半监督学习旨在利用未标注数据中的信息辅助标注数据进行监督学习,以较低的成本达到较好的学习效果
  主动学习(active learning) 是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题主动学习旨在找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果


1.3  统计学习方法三要素

  统计学习方法由模型策略算法三要素构成。

1.3.1 模型

  统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

1.3.2 策略

  有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型
  (1)损失函数和风险函数
  损失函数:度量模型一次预测的好坏
  风险函数:度量平均意义下模型预测的好坏
  由于模型的输入、输出 ( X , Y ) (X,Y) (X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望是:
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y ( L ( y , f ( x ) ) P ( x , y ) d x d y ) R_{exp}(f) = E_p[L(Y,f(X))] = \int_{X×Y}(L(y,f(x))P(x,y)d_xd_y) Rexp(f)=E

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值