学习笔记一：统计学习方法概论

最新推荐文章于 2025-03-23 20:36:45 发布

张哈哈_123

最新推荐文章于 2025-03-23 20:36:45 发布

阅读量368

点赞数

分类专栏：统计学习方法学习

本文链接：https://blog.csdn.net/m526500289/article/details/49229079

版权

统计学习方法学习专栏收录该内容

1 篇文章

订阅专栏

1.1 统计学习的对象：统计学习的对象是数据（data）。它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。

1.2 统计学习的目的：统计学习用于对数据进行预测和分析，特别是对未知新数据进行预测与分析。

1.3 统计学习的方法：统计学习由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervisedlearning）和强化学习（renforcement learning）等组成。

1.4 监督学习：从给定的、有限的、用于学习的训练的数据（training data）集合出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）；应用某个评价准则（evaluation criterion），从假设空间中选取一个最优的模型，使它对已知训练数据及未知测试数据（test data）在给定的评价准则下有最优的预测；最优模型的选取由算法实现。

1.5 统计学习方法的三要素：模型的假设空间（模型model）、模型选择的准则（策略strategy）、模型学习的算法（算法algorthm）。

1.6 统计学习方法的步骤：

（1）得到一个有限的训练数据集合；

（2）确定包含所有可能的模型的假设空间，即学习模型的集合

（3）确定模型选择的准则，即学习策略；

（4）实现求解最优化模型的算法，即学习的算法；

（5）通过学习方法选择最优化模型；

（6）利用学习的最优化对新数据进行预测或分析；

1.7 输入空间与输出空间：将输入与输出所有可能取值的集合分别称为输入空间（input space）与输出空间（outputspace）。特征空间：每个具体的输入是一个实例（isntance），通常由特征向量（featurevector）表示。这时，所有特征向量存在的空间称为特征空间（feature space）。

1.8 假设空间（hypothesis space）：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。

1.9 损失函数：0-1损失函数，平方损失函数，绝对损失函数，对数损失函数。

1.10 风险函数（risk function）又称期望损失函数（expectedloss）。

1.11 平均损失和经验风险（empirical risk）或经验损失（empirical loss）。

1.12 期望风险与经验风险或经验损失之间的关系。

1.13 经验风险最小化（empirical risk minimization,ERM）

1.14 结构风险最小化（structural risk minimaization）

1.15 训练误差与测试误差

1.16 正则化：正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项（regularizer）或罚项（penaltyterm）。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。

1.17 交叉验证：（1）简单交叉验证：首先随机地将已给的数据分为两部分，一部分作为训练集，另一部分作为测试集，然后用训练集在各种条件下训练模型，从而得到不同模型，在测试集上评价各个模型的测试误差，选出测试误差最小的模型。（2）S折交叉验证（S-fold cross validation），方法如下：首先随机地将已给数据切分为S个互不相交的大小相同的子集；然后利用s-1个子集的数据训练模型，利用余下的自己测试模型；将这一过程对可能的S种选择重复进行；最后选出S次评测中平均测试误差最小的模型。（3）留一交叉验证：S折交叉验证的特殊情形是S=N，称为留一交叉验证（leave-one-out cross validation）,往往在数据缺乏的情形下使用。这里，N是给定数据集的容量。

1.18 泛化误差（generalization ability）：是指由该方法学习得到的模型对未知数据的预测能力。