记录一下读李航老师的《统计学习方法》(第二版)的读书笔记。
《统计学习方法》(1)
1. 统计学习(机器学习)
1.1 特点
- 建立在计算机及网络平台上。
- 以数据为研究对象。
- 目的是对数据进行预测和分析。
- 以方法为中心,构建模型并应用模型进行预测与分析。
- 是多个领域的交叉学科,并逐步形成独有的理论体系与方法论。
1.2 三要素
方 法 = 模 型 + 策 略 + 算 法 方法 = 模型 + 策略 + 算法 方法=模型+策略+算法
- 模型(model):模型的假设空间,数据构成假设空间,在这个假设空间中包含所有可能的条件概率分布或者决策函数,每一个条件概率分布或者决策函数对应一个模型,那么这个样本空间中的模型个数有无数个。
- 策略(strategy):模型选择的准则,即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。
- 算法(algorithm):模型学习的算法,本质上就是计算机算法,怎么去求数学问题的最优化解。
2. 分类
2.1 基本分类
-
监督学习(supervised learning):从给定的数据集中学习出一个模型,当新数据到来时再根据这个模型来预测结果。
-
输入变量与输出变量均为连续变量的预测问题称为回归问题。
-
输出变量为有限个离散变量的预测问题成为分类问题。
-
输入变量与输出变量均为变量序列的预测问题称为标注问题。
-
-
无监督学习(unsupervised learning):从无标注数据中学习预测模型的机器学习问题。其本质是学习数据中的统计规律或潜在结构。
-
强化学习(reinforcement learning):智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
-
半监督学习(semi-supervised learning):利用标注数据和未标注数据学习预测模型的机器学习问题。
-
主动学习(active learning):机器不断给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
2.2 按模型分类
-
概率模型与非概率模型(probabilistic model and non-probabilistic model)
-
概率模型指出了学习的目的是学出P(x,y)【联合概率分布】或P(y|x)【条件概率】,但最后都是根据(I)来做判别归类。
-
非概率模型指的是直接学习输入空间到输出空间的映射h,学习的过程中基本不涉及概率密度的估计,概率密度的积分等操作,问题的关键在于最优化问题的求解。
-
-
线性模型与非线性模型
如果函数y=f(x)或z=g(x)是线性函数,则称该模型是线性模型,否则称为非线性模型。
-
参数化模型与非参数化模型
- 参数化模型是指我们对所要学习的问题有足够的认识,具备一定的先验知识,此时我们一般会假定要学习的目标函数f(x)或分布P(y|x)的具体形式。
- 非参数化模型是指当我们对所要学习的问题知之甚少,此时我们一般不会对潜在的模型做过多的假设。
2.3 按算法分类
- 在线学习(online learning):指每次接受一个样本进行预测,之后学习模型并不断重复该操作的机器学习。
- 批量学习(batch learning):指一次接受所有数据并学习模型,之后进行预测。
2.4 按技巧分类
- 贝叶斯学习,包括朴素贝叶斯和潜在狄利克雷分配。
- 核方法,指使用核函数表示和学习非线性模型的一种机器学习方法。包括核函数支持向量机、核PCA、核k均值等。
3 模型评估与模型选择
-
训练误差与测试误差(training error and test error)
不同的学习方法会给出不同的模型,当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就成为学习方法评估的标准。
-
模型选择(model selection)
所选模型要与真模型参数个数相同,参数向量要相近。
-
过拟合(over-fitting)
指学习是选择的模型包含的参数过多,导致对已知数据预测得很好,但对未知数据预测得很差的现象。
4 正则化与交叉验证
-
正则化(regularization)
正则化就是我们将结构风险最小化的过程,正则化的作用是选择经验风险与模型复杂度同时较小的模型。模型选择的典型方法就是正则化。正则化时结构风险最小化策略的实现,实在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。
-
交叉验证(cross validation)
如果给定样本数据充足,则随机将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set)。训练集用于训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。常用方法:简单交叉验证、S折交叉验证、留一交叉验证。
5 泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
-
泛化误差(generalization error)
即用学习到的模型对未知数据预测的误差。泛化误差就是所学习到的模型的期望风险。
-
泛化误差上界(generalization error bound)
性质:泛化误差上界是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量增加时,模型就越难学,泛化误差上界越大。
通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。
6 生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:
Y
=
f
(
x
)
Y = f(x)
Y=f(x)
或者概率条件分布:
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)
监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型,生成方法就是指该模型表示了给定输入X产生输出Y的生成关系:
P
(
X
∣
Y
)
=
P
(
X
,
Y
)
P
(
X
)
P(X|Y)=\frac{P(X,Y)}{P(X)}
P(X∣Y)=P(X)P(X,Y)
判别方法由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型,判别方法关心的是对给定输入X,应该预测什么样的输出Y。
生成方法 | 判别方法 | |
---|---|---|
特点 | 可以还原出联合概率分布P(X,Y);生成方法的学习收敛速度更快;当存在隐变量时仍能使用生成方法学习。 | 直接学习的是条件概率P(Y|X)或决策函数f(X),准确率更高;可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。 |
总结
第一章主要介绍了机器学习的基础概念,大体上是能够理解的,奈何数学基础太差,一些公式并看不太懂。而且上述内容说是笔记,实际上大都是原文,并没有自己的理解。后续需要恶补一下工程数学和概率论的内容。