1.1 统计学习
1. 统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提
2. 统计学习主要分为:
- 监督学习(supervised learning)
- 非监督学习(unsupervised learning)
- 半监督学习(semi-supervised learning)
- 强化学习(reinforcement learning)
3. 本书主要讨论监督学习,这种情况下统计学习的方法可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
- 独立同分布:指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。
4. 实现统计学习方法的步骤如下:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或分析
5. 统计学习学科在科学技术中的重要性主要体现在以下几个方面:
- 统计学习是处理海量数据的有效方法。
- 统计学习是计算机智能化的有效手段。
- 统计学习是计算机科学发展的一个重要组成部分。(可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用)
1.2 监督学习
1. 输入空间(input space) 与输出空间(output space):输入与输出所有可能取值的集合
- 输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间
- 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space)。
- 特征空间的每一维对应于 一个特征。
- 模型实际上都是定义在特征空间上的。
- 输入、输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入、输出变量所取的值用小写字母表示,输入变量的取值写作x,输出变量的取值写作y。
2. 根据输入、输出变量的不同类型,对预测任务给予不同的名称
- 输入变量与输出变量均为连续变量的预测问题称为回归问题;
- 输出变量为有限个离散变量的预测问题称为分类问题;
- 输 入变量与输出变量均为变量序列的预测问题称为标注问题。
3. 假设空间(hypothesis space):监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
- 假设空间的确定意味着学习范围的确定。
1.3 统计学习三要素
1. 统计学习方法的三要素:模型、策略和算法。
- 构建一种统计学习方法就是确定具体的统计学习三要素。
2. 模型
- 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
- 假设空间可以定义为决策函数的集合
- 我们可以将假设空间看为一个由参数向量决定的函数族
- 参数向量:设决策函数为Y=a0+a1X,则每个具体的决策函数由向量θ=(a0,a1)决定。θ即为参数向量。
- θ取值于n维欧式空间Rn
3. 策略
- 策略就是决定按照什么样的准则学习或选择最优的模型。
- 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
- 损失函数和风险函数
- 理论上,模型f(x)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或期望损失,记作Rexp。
- 我们的目标就是选择期望风险最小的模型
- 实际上,即模型关于训练集的平均损失称为经验风险或经验损失,记作Remp。
- Rexp是模型关于联合分布的期望损失,经验风险Remp(f)是模型关于训练样本集的平均损失。
- 理论上,模型f(x)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或期望损失,记作Rexp。
- 经验风险最小化和结构风险最小化:结构风险最小化就是在经验风险上加上表示模型复杂度的正则化项或罚项。
- 算法:算法是指学习模型的具体计算方法。
1.4 模型评估与模型选择
1. 如果一味的追求提高训练的预测能力。所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。
1.5 正则化与交叉验证
1. 正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。
2. S折交叉验证:首先将已给数据切分成S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行最后选出S次评测中平均测试误差小的模型。
1.6 泛化能力
1. 泛化能力是指由该方法学习到的模型对未知数据的预测能力。
1.7 生成模型和判别模型
1. 监督学习方法又可以分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。
- 生成方法由数据学习联合概率分布P(X,Y),然后求出条件概论分布P(Y|X)作为预测的模型,即生成模型。
- 判别方法由数据直接学习决策函数f(x)或者条件概论分布P(Y|X)作为预测的模型,即判别模型。
1.8 分类问题
1. 在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。
1.9 标注问题
1. 标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
- 标注问题是分类问题的一个推广, 标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。
1.10 回归问题
1. 回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
2. 回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据