第一章统计学习及监督学习概论

幽潭梦落花

已于 2024-05-05 15:04:47 修改

阅读量871

点赞数 17

分类专栏：统计学习方法文章标签：学习人工智能深度学习机器学习

于 2024-05-04 20:47:07 首次发布

本文链接：https://blog.csdn.net/m0_56644364/article/details/138448551

版权

统计学习方法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

统计学习方法的目的

统计学习方法的目的就是通过已有的数据，来预测未知新数据的方法。主要的载体就是计算机，通过在计算机上构建相应的模型来学习数据的分布或者学习数据与结果之间的映射关系，最终使用该训练好的模型来预测未知的新数据。
这样预测的假设基于一个在圣经旧约里书写过的原则，日光之下没有新鲜事，即我们假设同类数据属于同一种数据分布，我们希望学习这个数据分布。不同的模型就是试图通过不同的方式刻画这个数据分布的方式。

统计学习的三要素

模型

用于将数据输入后得到合理的预测的概率统计模型，本质上从同类数据具有一定的统计规律性出发，学习该类数据的统计分布。

策略

模型选择的准则称为策略，刻画模型预测结果的好坏，即如何评估预测值与真实值之间的差异程度，以此来选择最合适的模型————在验证集上预测效果最好的模型。

算法

如何选择最优模型，比如一个优化问题 $argmin\ f(x,t)$ ，如何进行求解的问题，当然对于这种问题，如果可以进行理论求解则非常好。但是大多数情况下，对于复杂的非线性模型，只能通过数值求解方式得到结果，这时候使用数值优化算法来得到问题的最优解。常见的方式比如SGD、牛顿法或者拟牛顿法等等。

一个简单的例子

为了说明统计学习方法预测未知新数据的过程，下面将举一个非常非常简单的例子。
假设我是银行的放贷人员，现在我想要知道到底什么样的人是优质的客户，即有意愿借银行贷款，而且有能力偿还贷款。现在我收集了过去五年的所有客户的信息，显然这些客户分为了三类。
A类客户：贷款过并且在期限内偿还了贷款
B类客户：贷款过并且没有在期限内偿还贷款
C类客户：没有贷款过

经过简单的分析，我们希望找到A类客户群体的特征，当然我比较笨，收集了客户的身高和体重的特征，因为作为一个计算机我并不知道什么特征有效。

此时训练集就是由A和B类客户以及他们的身高和体重组成的训练集，测试集就是由C类客户的身高和体重组成，我们已经将数据集收集并且成功划分完成。

备选模型有三个，第一个模型是将数据集中的身高最高的前百分之五十归类为A类客户，将身高后百分之五十的客户归类为B类客户；第二个模型将数据集中体重最重的前百分之五十的客户归类为A类客户，将后百分之五十的客户归类为B类客户；第三个模型就是使用 $y = sign(a*x_1+b*x_2 + c)$ ，其中 $x_1$ 表示客户的身高， $x_2$ 表示客户的体重，A类客户的标签为1，B类客户的标签为-1

模型选择的策略，对于前面两个模型而言，没有任何可供选择的空间，而对于最后一个模型而言，我们定义损失函数，比如，将预测正确的结果损失记为0，而将预测错误的损失记为1，对于模型三的假设空间就是由不同的参数 $a, b, c$ 组成的模型假设空间。我们采取的策略就是训练集上的损失函数最小化。

算法，具体实现损失函数最小化的过程就是算法实现的过程，我们采取的方式是梯度下降法，并且一个个的样本进行训练来更新参数，直至训练集中的所有数据对均被遍历完成，一开始参数的初始化的值均为0。

最终我们得到了三个模型用于预测，之后在测试集上进行预测就完成了整个过程。

其他知识点

误差：在训练过程对于误差函数的选取也是十分重要的，模型的评估过程中会存在训练误差、测试误差的问题，我们一般选择在验证集上表现最好的模型用于预测。
过拟合和欠拟合：对于复杂的问题，我们应该采取较为复杂的模型来进行训练，但是对于简单的问题我们应该采取简单的问题进行训练，这同时也和数据集的容量有关，如果数据集少，我们应该选择简单的模型进行训练。
正则化以及交叉验证：正则化也是解决模型在训练数据集上过拟合的问题，通过相应的参数约束模型的复杂度来实现；交叉验证，是在数据集容量较少的情况下使用，将训练集分为几个部分，轮流将其中一个部分作为验证集，将在这些验证集上平均表现最好的模型选出来应用到预测集中。
泛化能力：泛化能力一般考察的是模型对于未知数据的预测能力，一般而言简单的模型比复杂的模型泛化能力强。
生成模型与判别模型：这是模型的不同类型，生成方法由数据学习联合概率分布 $P (X, Y)$ ，然后求出条件概率分布 $P (Y ∣ X)$ 作为预测的模型， $\frac{P(X,Y)}{P(X)}$ ；而判别方法直接学习决策函数 $f (X)$ 或者条件概率分布 $P (Y ∣ X)$ 作为预测的模型，即判别模型。