1、统计学习
1.1.统计学习的主要特点:
(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
(2)统计学习以数据为研究对象,是数据驱动的学科;
(3)统计学习的目的是对数据进行预测与分析;
(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
1.2.统计学习的目的:
统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析,对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高,对数据的分析可以让人们获取新的知识.给人们带来新的发现对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
1.3.统计学习的方法:
统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习 (supervised learning)、非监督学习 (unsupervised learning)半监督学习(semi-supervised learning)和强化学习 (reinforcement 1earning) 等组成。
监督学习:数据集含有标记,对给定的输入,对应的有一个输出。(重点讨论)
非监督学习:数据集不含标记。典型的应用是聚类。
半监督学习:一部分有标记。
强化学习: 基本概念是回报函数,通过定义好的行为和坏的行为,加上趋好避坏的学习型算法,让程序作出一系列正确的决策。
1.4. 统计学习方法的步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数掘进行预测或分析。
1.5.统计学习的研究
统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论(statistical learning theory)及统计学习应用(application of statistical learning)三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。
2. 监督学习(supervised learning)
2.1监督学习的任务
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意,这里的输入、输出是指某个系统的输入与输出,与学习的输入与输出不同) 计算机的基本操作就是给定一个输入产生一个输出,所以监督学习是极其重要的统计学习分支,也是统计学习中内容最丰富、应用最广泛的部分。
2.2监督学习中的基本概念
2.2.1 输入空间、特征空间与输出空间
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space) 与输出空间(output space)。 输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小子输入空间。
每个具体的输入是一个实例 (instance). 通常由特征向量 (feature vector) 表示。这时,所有特征向量存在的空间称为特征空间 (feature space) 特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不于区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
2.2.2联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布 P(X,Y)。P(X, Y