文章目录
第 1 章 统计学习及监督学习概论
1.1 统计学习
统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型
并运用模型对数据进行预测与分析
的一门学科。统计学习也称为统计机器学习(statistical machine learning)。
1.1.1 统计学习的特点
(1)统计学习以计算机及网络为平台
;
(2)统计学习以数据为研究对象
;
(3)统计学习的目的是对数据进行预测与分析
;
(4)统计学习以方法为中心
;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化原理及计算机科学等多个领域的交叉学科
。
1.1.2 统计学习的对象
统计学习研究的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
1.1.3 统计学习的目的
统计学习总的目标是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析
,同时也要考虑尽可能地提高学习效率
。
1.1.4 统计学习的方法
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习、无监督学习和强化学习等组成。
统计学习方法可概述如下:
(1)得到一个有限的训练数据集合
;
(2)确定包含所有可能的模型的假设空间
,即学习模型的集合;
(3)确定模型选择的准则
,即学习的策略;
(4)实现求解最优模型
的算法,即学习的算法;
(5)通过学习方法选择最优模型
;
(6)利用学习的最优模型对新数据进行预测或分析
。
1.1.5 统计学习的研究
统计学习的研究一般包含统计学习方法、统计学习理论及统计学习应用三个方面。
统计学习研究可概述如下:
(1)统计学习方法的研究旨在开发新的学习方法
;
(2)统计学习理论的研究在于探求统计学习方法的有效性和效率
,以及基本的理论问题
;
(3)统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去
。
1.1.6 统计学习的重要性
统计学习的重要性主要体现如下:
(1)统计学习是处理海量数据的有效方法
;
(2)统计学习是计算智能化的有效手段
;
(3)统计学习是计算机科学发展的一个重要部分
。
1.2 统计学习的基本分类
统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。
1.2.1 监督学习
监督学习(supervised learning) 是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
(1)输入空间、输出空间和特征空间
输入空间:输入所有可能取值的集合
输出空间:输出所有可能取值的集合
特征空间:所有特征向量存在的空间
注1:输入与输出空间可以是有限元素的集合,也可以是整个欧式空间;输入空间与输出空间可以是同一个空间,也可以是不同的空间;通常输出空间远远小于输入空间。
注2:特征空间的每一维对应一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
(2)联合概率分布
监督学习假设输入与输出的随机变量 X X X和 Y Y Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)。 P ( X , Y ) P(X,Y) P(X,Y)表示分布函数,或分布密度函数。
统计学习假设数据存在一定的统计规律,训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。
(3)假设空间
模型属于由输入空间到输出空间的映射的集合
,这个集合就是假设空间。假设空间也即意味着监督学习所要学习的范围。
(4)问题的形式化
监督学习分为学习和预测两个过程,由学习系统与预测系统共同完成,可以用图1.1来描述。
1.2.2 无监督学习
无监督学习(unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
无监督学习可用于对已有数据的分析
,也可用于对未来数据的预测
。它和监督学习有类似的流程,如图1.2所示。
1.2.3 强化学习
强化学习(reinforcement learning) 是指智能系统与环境的连续互动中学习最优行为策略的机器学习问题。强化学习的本质是学习最优的序贯决策。
强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的
。智能系统与环境的互动如图1.3所示。
1.2.4 半监督学习与主动学习
半监督学习(semi-supervised learning) 是指利用标注数据和未标注数据学习预测模型的机器学习问题。半监督学习旨在利用未标注数据中的信息,辅助标注数据进行监督学习,以较低的成本达到较好的学习效果。
主动学习(active learning) 是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。主动学习旨在找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
1.3 统计学习方法三要素
统计学习方法由模型、策略和算法三要素构成。
1.3.1 模型
统计学习首要考虑的问题是学习什么样的模型
。在监督学习过程中,模型就是所要学习的条件概率分布
或决策函数
。模型的假设空间包含所有可能的条件概率分布或决策函数。
1.3.2 策略
有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型
。
(1)损失函数和风险函数
损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏
由于模型的输入、输出 ( X , Y ) (X,Y) (X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望是:
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y ( L ( y , f ( x ) ) P ( x , y ) d x d y ) R_{exp}(f) = E_p[L(Y,f(X))] = \int_{X×Y}(L(y,f(x))P(x,y)d_xd_y) Rexp(f)=E