《统计学习方法》读书笔记第一章

最新推荐文章于 2021-01-24 22:05:24 发布

子夕听雨

最新推荐文章于 2021-01-24 22:05:24 发布

阅读量376

点赞数

分类专栏：《统计学习方法》李航读书笔记文章标签：机器学习统计

本文链接：https://blog.csdn.net/lbllol365/article/details/79485347

版权

《统计学习方法》李航读书笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1.1 统计学习

　　统计学习是关于计算机给予数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科，也称之为统计机器学习。
　　统计学习的主要特点：
　　　　１．建立在计算机和网络之上的。
　　　　２．数据驱动。
　　　　３．目的是对数据进行预测和分析。
　　　　４．以统计学习方法为中心，运用方法构建模型并对数据进行分析和预测。
　　　　５．交叉学科，并逐渐自成体系与方法论。
　　统计学习三要素：模型、策略、算法。
　　实现统计学习方法的步骤：
　　　　1.得到一个有限的数据集合。
　　　　2.确定可能运用到的所有模型。
　　　　3.根据实际情况确定选择模型的策略。
　　　　4.实现求解最优模型的算法。
　　　　5.通过学习方法选择最优模型。

1.2 监督学习

　　每一个具体的输入是一个实例，通常由特征向量构成。
　　所有特征向量存在的空间称为特征空间。
　　输入与输出对称为样本。
　　由输入空间到输出空间的集合称为假设空间，假设空间的确定意味着学习范围的确定。
　　统计学习方法＝模型＋策略＋算法

1.3 统计学习三要素

　　
　　损失函数度量模型一次预测的好坏。
　　风险函数度量平均意义下模型预测的好坏。

　　常用的损失函数：
　　1.0-1损失函数
　　

L (Y, f (X)) = {1, 0, Y \neq f (X) Y = f (X)

$L(Y,f(X)) = \left\{ {\begin{array}{*{20}{c}} {1,}&{Y \ne f(X)}\\ {0,}&{Y = f(X)} \end{array}} \right.$
　　2.平方损失函数

L (Y, f (X)) = (y - f (X)) 2

$L(Y,f(X)) = {(y - f(X))^2}$
　　３.绝对损失函数
　　

L (Y, f (X)) = | Y - f (X) |

$L(Y,f(X)) = |Y - f(X)|$
　　4.对数损失函数
　　

L (Y, P (Y | X)) = - log P (Y | X)

$L(Y,P(Y|X)) = - \log P(Y|X)$

　　损失函数的期望（风险函数或期望损失）：
　　

R exp (f) = E P [L (Y, f (X))] = \int X \times Y L (y, f (x)) P (x, y) d x d y

${R_{\exp }}(f) = {E_P}[L(Y,f(X))] = \int\limits_{X \times Y} {L(y,f(x))P(x,y)dxdy}$
　　但由于联合分布未知，所以期望损失不能直接计算，所以定义关于训练数据集的平均损失——经验风险：
　　

R e m p (f) = 1 N \sum i = 1 N L (y i, f (x i))

${{\rm{R}}_{emp}}(f) = \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i}))}$
　　 根据大数定律，当训练样本趋于无穷时，经验风险趋于期望风险。

经验风险最小化和结构风险最小化

　　当样本容量足够大时，经验风险最小化有很好的学习效果。
　　极大似然估计就是一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。
　　结构风险最小化是为了防止过拟合而提出来的策略，它等价于正则化。结构风险在经验风险的基础上加上表示模型复杂度的正则化项或者罚项，结构风险的定义是：
　　

R s r m (f) = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

${R_{srm}}(f) = \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i})) + \lambda J(f)}$
　　J(f)为模型的复杂度，是定义在假设空间的泛函，模型越复杂，J(f)越大，反之亦然。复杂度表示了对复杂模型的惩罚，

λ λ $\lambda$ 是系数，且大于等于0，用以权衡经验风险和模型复杂度。
　　 结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

1.4模型评估与模型选择

　　当损失函数是0-1损失时，测试误差就变成了误差率。
　　

误差率 + 准确率 = 1

1.5正则化与交叉验证

正则化的作用是选择经验风险和模型复杂度同时较小的模型

　　如果给定的样本数据充足，进行模型选择的一种方法是随机将数据分成三部分，分别为训练集、验证集、测试集。
　　
　　训练集用来训练模型。
　　验证集用来进行模型的选择。
　　测试集用于最终对学习方法的评估。

交叉验证

　　在实际操作时，数据量常常不足，可以采用交叉验证的方法。
　　交叉验证的基本想法是重复的使用数据，把给定的数据切分并组合为训练集和测试集，在此基础上反复进行训练、测试和模型选择。

1.简单交叉验证

　　随机将所给数据分成两部分，训练集和测试集（七三分）；然后用训练集在各种条件（参数个数不同）下训练，得到不同的模型，最后在测试集上评价各个模型的测试误差，选出误差最小的模型。

2.S折交叉验证

　　这是应用最多的方法。
　　1.随机将数据分为S个互不相交的数据集。
　　2.从中选出S-1个数据集作为训练集，剩下一个作为测试集，训练并测试模型。
　　3.重复过程2S次（穷尽所有测试集选择可能）
　　4.选出误差率最小的模型

3.留一交叉验证

　　只留一个样本作为测试集，其余都作为训练集，若有k个样本，则需要训练k次，测试k次。
　　样本利用率最高，但只用于数据缺乏的情况下。

1.6泛化能力

　　泛化能力是指对未知数据的预测能力。
　　泛化误差就是学习到模型的期望风险。

泛化误差上界

　　通过比较两种学习方法的泛化误差上界来比较它们的优劣。
　　泛化误差性质：
　　　　1.样本容量越大，泛化误差上界越趋于0。
　　　　2.假设空间越大，泛化误差上界越大。
　　定理1.1（泛化误差上界） 对二分类问题，当假设空间是有限个函数集合 $F = \{ {f_1},{f_{2,}} \cdots ,{f_d}\}$ 时，对任意一个函数 $f \in F$ ，至少以概率 $1 - \delta$ ，以下不等式成立：
　　

R (f) \leq R ˆ (f) + ε (d, N, δ)

$R(f) \le \widehat R(f) + \varepsilon (d,N,\delta )$
　　其中，

ε(d,N,δ)=12N(logd+log1δ)−−−−−−−−−−−−−−√ ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) $\varepsilon (d,N,\delta ) = \sqrt {\frac{1}{{2N}}(\log d + \log \frac{1}{\delta })}$
　　不等式左端是泛化误差，右端是泛化误差上界，在泛化误差中，第一项为训练误差，第二项是N的单调递减函数，假设空间包含的函数越多，其值越大。

1.7 生成模型与判别模型

　　监督学习方法可以分为生成方法和判别方法，所学到的模型称为生成模型和判别模型。
　　生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。
　　生成方法的特点：可以还原联合概率分布，但是判别模型不能。收敛速度快。当存在隐变量时，还可以使用生成方法，但不能用判别方法。
　　典型的生成模型有：朴素贝叶斯法和隐马尔可夫模型
　　判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型，即判别模型。
　　判别方法的特点：学习准确率更高。可以简化学习问题。
　　典型的判别模型：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。