《统计学习方法第2版》学习笔记-第1章统计学习及监督学习概论

最新推荐文章于 2024-01-29 18:09:44 发布

可以叫我才哥

最新推荐文章于 2024-01-29 18:09:44 发布

阅读量324

点赞数

分类专栏：统计学习方法文章标签：机器学习 python 算法人工智能大数据

本文链接：https://blog.csdn.net/dxawdc/article/details/108477764

版权

统计学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章作为概论，主要介绍一些基本概念。

1.统计学习

统计学习或机器学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。

统计学习的特点：

统计学习以计算机及网络为平台，是建立在计算机及网络之上的；
统计学习以数据为研究对象，是数据驱动的学科；
统计学习的目的是对数据进行预测与分析；
统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；
统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学多个领取的交叉学科，并在发展中逐步形成独立的理论体系与方法论。

统计学习的对象：

统计学习研究的对象是数据。

统计学习的目的：

统计学习的目的是用于对数据的预测与分析，尤其是未来数据的预测与分析

统计学习的方法：

监督学习
无监督学习
强化学习

一般步骤如下：

得到一个有限的训练数据集合
确定包含所有可能的模型的假设空间，即学习模型的集合
确定模型选择的准则，即学习的策略
实现求解最优模型的算法，即学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新的数据进行预测与分析

2.统计学习的分类

2.1.基本分类

监督学习：是指从标注数据中学习预测模型的机器学习问题，本质是学习输入到输出的映射的统计规律；
无监督学习：是指从没有标注的数据中学习预测模型的机器学习问题，本质是学习数据中的统计规律或潜在的结构；
强化学习：是指智能系统在于环境的连续互动中学习最优行为策略的机器学习问题，本质是学习最优的序贯策略。

2.2.按模型分类

概率模型与非概率模型
线性模型与非线性模型
参数化模型与非参数化模型

2.3.按算法分类

在线学习
批量学习

2.4.按技巧分类

贝叶斯学习
核方法

3.统计学习方法的三要素

统计学习方法都是由模型、策略和算法构成，即为统计学习方法由三要素构成，可以简单的表示为：
方法=模型+策略+算法

3.1. 模型

在监督学习过程中，模型就是所有要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

3.2. 策略

损失函数和风险函数
经验风险最小化与结构风险最小化

3.3. 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑根据什么样的计算方法求解最优模型。

4.模型评估与模型选择

4.1. 训练误差与测试误差

4.2. 过拟合与模型选择

当假设空间含有复杂度不同的模型时，就要面临模型选择的问题。
【这一节有函数曲线拟合，可以试着用代码实现】
M次多项式函数拟合问题的例子

5.正则化与交叉验证

5.1.正则化

模型选择的典型方法就是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项。
正则化一般具有如下形式：
正则化一般形式

5.2.交叉验证

另外一种常见的模型选择方法是交叉验证。
如果给定的样本数据充足，进行模型选择的一种简单方法就是随机将数据集分为三部分，分别是训练集、验证集和测试集。其中训练集用于训练模型，验证集用于模型的选择，测试集用于对最终学习方法的评估。
常规有以下三种形式：

简单的交叉验证
S折交叉验证
留一交叉验证

6.泛化能力

6.1.泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。
泛化误差的定义

6.2.泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界。
本节涉及1个泛化误差上界定理：对二类分类问题，当假设空间是有限个函数的集合F={f1,f2,f3,…,fd},对于任意一个函数f∈F，至少以概率1-δ ，0<δ<1，以下不等式成立：

不等式（1.32）中左侧R(f)是泛化误差，右侧即为泛化误差上界。