1.2 监督学习

夏驰和徐策

于 2024-10-05 13:25:47 发布

阅读量384

点赞数 10

分类专栏：程序猿之统计学习方法文章标签：统计学习方法

本文链接：https://blog.csdn.net/tang7mj/article/details/142704543

版权

程序猿之统计学习方法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言：

我往后看了看这本书，发现很多机器学习的术语定义出现，我推测这门课是机器学习的先修课程，有趣的是我们学校在上机器学习之前没有上过这门课，怪不得看的时候云里雾里，因此我觉得改变计划，把接下来的重心放到统计学习方法上来。

1.2 监督学习

在统计学习中，学习方法主要包括监督学习、非监督学习、半监督学习以及强化学习。本书的重点是讨论监督学习问题。

1.2.1 监督学习概述

监督学习的任务是通过学习一个模型，使得该模型能够对任意给定的输入，给出相应的输出预测。需要注意的是，这里的输入和输出是指被学习系统处理的输入和输出，而不是学习过程中的输入与输出。监督学习作为统计学习的一个重要分支，内容丰富且应用广泛，是计算机操作的基础——从输入到输出的映射。

1.2.2 关键概念

1. 输入空间、特征空间与输出空间

在监督学习中，输入空间（input space）和输出空间（output space）是分别包含所有可能输入和输出值的集合。它们可以是有限集合，也可以是整个欧氏空间。输入和输出空间可以相同，也可以不同，但通常情况下输出空间远小于输入空间。

每一个具体的输入称为一个实例（instance），通常用特征向量（feature vector）表示。所有特征向量所在的空间称为特征空间（feature space），特征空间的每一维度对应一个特征。有时我们假设输入空间与特征空间相同，不做区分；有时也会假设它们不同，模型定义在特征空间上，而实例是从输入空间映射到特征空间的。

在监督学习中，输入和输出被视为在输入（特征）空间和输出空间上定义的随机变量。输入变量通常用大写字母 XXX 表示，输出变量用 YYY 表示；它们的取值分别用小写字母 xxx 和 yyy 表示。输入变量 xxx 通常为特征向量：

其中 xix_ixi 表示 xxx 的第 iii 个特征。

监督学习的模型从训练数据（由输入和输出对组成的样本集合）中学习，测试数据则用来评估模型的预测能力。训练集通常表示为：

输入变量和输出变量的类型可能是连续的，也可能是离散的，根据不同情况，预测任务有不同的名称：输入和输出均为连续变量的任务称为回归问题，输出为离散变量的任务称为分类问题。

2. 联合概率分布

监督学习假设输入和输出的随机变量 XXX 和 YYY 遵循联合概率分布 P(X,Y)P(X, Y)P(X,Y)，表示输入和输出的联合分布。在学习过程中，假定这一联合概率分布存在，但对学习系统来说，它的具体形式是未知的。训练数据和测试数据被看作是根据联合概率分布 P(X,Y)P(X, Y)P(X,Y) 独立同分布生成的。

3. 假设空间

监督学习的目标是找到从输入到输出的最佳映射，该映射由模型表示。模型属于从输入空间到输出空间的映射集合，这个集合称为假设空间（hypothesis space）。确定假设空间意味着确定了学习的范围。

监督学习中的模型可以是概率模型，也可以是非概率模型，分别由条件概率分布 P(Y∣X)P(Y|X)P(Y∣X) 或决策函数 Y=f(X)Y = f(X)Y=f(X) 来表示。当给定一个具体输入时，模型的输出预测可以写作 P(Y∣x)P(Y|x)P(Y∣x) 或 y=f(x)y = f(x)y=f(x)。

1.2.2 问题的形式化

在监督学习中，核心任务是利用训练数据集学习一个模型，并通过这个模型对测试样本进行预测。由于训练数据集是由人工标注的输入与输出组成的，因此称为监督学习。监督学习可以分为两个阶段：学习阶段和预测阶段，这两个过程分别由学习系统和预测系统来完成。监督学习的过程可以用图 1.1 来描述。

 (x1, y1), (x2, y2), ..., (xN, yN)
 ───────────────────────────▶  学习系统 ───▶ 模型 ───▶ 预测系统 ───▶ (x_test, y_test)

图 1.1 监督学习问题示意图

1.2.2.1 训练数据集的表示

监督学习首先会给定一个训练数据集 TTT，通常表示为：

其中，(xi,yi)(x_i, y_i)(xi,yi)，i=1,2,...,Ni = 1, 2, ..., Ni=1,2,...,N，称为样本或样本点。在这个表示中，xi∈X⊆Rdx_i \in \mathcal{X} \subseteq \mathbb{R}^dxi∈X⊆Rd 是输入的观测值（也称为输入或实例），而 yi∈Y⊆Ry_i \in \mathcal{Y} \subseteq \mathbb{R}yi∈Y⊆R 是输出的观测值（也称为输出）。输入空间 X\mathcal{X}X 通常是一个多维欧氏空间，而输出空间 Y\mathcal{Y}Y 则根据具体任务有所不同，可以是离散的或连续的值。

1.2.2.2 联合概率分布假设

在监督学习中，我们假设训练数据和测试数据是依联合概率分布 P(X,Y)P(X, Y)P(X,Y) 独立同分布产生的。这一假设使得我们可以基于训练数据进行学习，并期望所学到的模型可以推广到未见过的测试数据。

1.2.2.3 学习系统

学习系统的任务是通过给定的训练数据集 TTT，学习到一个能够描述输入与输出之间映射关系的模型。这个模型可以是：

条件概率分布： P(Y∣X)
决策函数： Y=f(X)

条件概率分布 P(Y∣X) 或决策函数 Y=f(X) 描述了输入变量 X 和输出变量 Y 之间的映射关系。

1.2.2.4 预测系统

在预测阶段，预测系统利用学习阶段得到的模型，对新的测试样本集进行预测。对于给定的测试样本输入 xtestx_{\text{test}}xtest，模型将输出相应的预测值 y^\hat{y}y^，即：

或通过条件概率分布给出：

通过这些预测，系统能够对测试数据进行相应的判断或决策。

1.2.2.5 模型的优化与推广

在学习过程中，学习系统（即学习算法）通过训练数据集中提供的信息来优化模型。具体来说，学习系统试图使得模型的预测输出 f(x)f(x)f(x) 与训练数据集中实际输出 yyy 之间的差距尽可能小。为了保证模型不仅在训练数据上表现良好，还能够推广到未知的测试数据集，学习系统需要通过多次尝试，选择最优的模型，以便在测试数据上获得良好的预测效果。