《统计学习基础》监督学习概要2.1-2.2

最新推荐文章于 2024-01-07 02:08:47 发布

小布归来了

最新推荐文章于 2024-01-07 02:08:47 发布

阅读量419

点赞数

分类专栏：《统计学习基础 Statistical Learning》

本文链接：https://blog.csdn.net/weixin_42077402/article/details/90739792

版权

《统计学习基础 Statistical Learning》专栏收录该内容

2 篇文章 0 订阅

订阅专栏

2.1 导言

第一章中依次举了4个例子：

1> 垃圾电子邮件

例子中的数据包含 4601 封电子邮件的信息，在一项研究中试图预测一封电子邮件是否是垃圾邮件。目标是涉及一个自动垃圾邮件检测器，该检测器可以在邮件塞进用户邮箱前过滤掉垃圾电子邮件。对于所有的4601封电子邮件，可用的真实结果是邮件或者垃圾邮件，同时还有 57 个常用词和标点符号的相对频率。这是一个监督学习的例子，其中结果变量是类别型变量 email/spam。这也被称作分类问题。

表 1.1 列出了垃圾邮件和普通邮件平均差异比较大的单词和字符。

我们的学习方法要决定用哪个特征以及怎么使用，比如说，我们会有下述规则

当(%george < 0.6) 且 (%you > 1.5)时，为垃圾邮件，否则为普通邮件

或者另一条规则

当(0.2 · %you − 0.3 · %george) > 0时，为垃圾邮件，否则为普通邮件

对于这个问题不是所有的错误都相等，我们想要避免过滤掉好的电子邮件，尽管让垃圾邮件通过不是想要的但是结果不是很严重。我们将在本书中讨论一系列不同的方法来解决这个学习问题。

2> 前列腺癌的诊断

来自 Stamey et al. (1989) 检验 前列腺癌特定抗原水平 (PSA) 和临床措施之间相关性的研究，其中有 97 名男性接受了彻底的前列腺切除术。

目标是根据癌体积的对数值（lcavol）、前列腺重量的对数值（lweight）、良性前列腺增生数量（lbph）、精囊浸润（svi）、包膜浸透的对数值（lcp）、Gleason得分（gleason）、Gleason得分为4或5的比例（pgg45）来预测PSA的对数值（lpsa）。图1.1是这些变量的散点图矩阵。一些和（lpsa）的值是显著的，但是一个好的预测模型是很难根据眼睛构造出来的。

这是一个监督学习的问题，也称之为回归问题，因为结果测量是可量化的。

3> 手写数字识别

这些图片都已经被标准化为几乎同样尺寸同样方向的图片了。任务是从 16×1616×16 的灰度值矩阵中快速又准确地判断每张图片上的数字（0，1，…，9）。如果结果够精确，最终的算法会用到自动整理信封的过程中。这是一个分类问题，而且要求犯错误概率要很低避免分错邮箱。为了实现低错误率，一些物品要被分到不知道这个类里面，然而人工分拣。

4> 基因表达微阵列

DNA是脱氧核糖核酸，而且是组成人类染色体的基本材料。DNA表达微阵列通过测量一个细胞某基因的mRNA的量来衡量基因的表达情况。DNA表达微阵列被当作一个生物学领域的重大突破，促进了对单个细胞内成千上万基因同时量化研究。

下面介绍DNA表达微阵列如何工作。几千个基因的核苷酸序列打印在载玻片上。分别用红色和绿色染料标记目标样本和参照样本，并且每个都与载玻片上的DNA混合。通过X光透视检查，可以测量出每个位置上红色/绿色的RNA强度之比的对数值。结果是几千个数，基本上在-6到6之间，衡量每个目标样本中基因相对于参考样本中基因的表达水平。正值表示目标样本中基因表达程度更高，反之亦然。

一个基因表达数据集收集了一系列DNA微阵列实验中的表达的值，每一列表示一次实验。因此几千行表示几千个不同的基因，每一列表示一个样本：在图 1.3 中有 6830 个基因（行）和 64 个样本（列），尽管为了清晰只有一个随机样本的100行显示出来。这张图是用热点图显示了该数据集，从绿色（消极）到红色（积极）。样本是从不同病人得到的64个癌症肿瘤。

这里的挑战是理解基因和样本是怎样组织起来的。典型的问题有如下几个：

(a) 根据基因的表达谱，哪些样本两两之间最相似？

(b) 根据样本的表达谱，哪些基因两两之间最相似？

我们可以把这个任务看成是回归问题，有两个类别型自变量——基因和样本——以及对应变量的表达水平。然而，把这个问题看成是非监督学习可能更有用。例如，对于上述的问题(a)，我们把样本看成是6830维空间中的一点，并且想通过某种方式对其进行聚类。

上面4个例子，都有一些共同的组成成分。每一个例子中都有一个变量集，可以记作输入变量(inputs)，可以先简单理解为函数表达式(x,y)中的x变量。输入变量是可以测量得到或者预设的，也就是说它一般是已知的变量。它对一个或多个输出变量 (outputs) 产生影响。每个例子的目标便是利用输入变量去预测输出变量，即为用已知的x预测未知的y。这样的过程被称为监督学习 (supervised learning)。

在统计学中，输入变量 (inputs) 通常称作 预测变量 (predictors)，这是一个与输入变量等价的说法，更经典的说法是 自变量 (independent variables)。在模式识别中，更倾向于采用 特征 (features) 的说法，我们也会采用这一说法。输出变量 (outputs) 被称作 响应变量(responses)，或者更经典的说法是 因变量 (dependent variables)。

2.2 变量类型与术语

输出类型的差别导致对预测的命名规定：当我们预测定量的输出时被称为 回归 (regression)，当我们预测定性的输出时被称为 分类(classification)。我们将会看到这两个任务有很多的共同点，特别地，两者都可以看成是函数逼近。

输入变量也有各种各样的测量类型；我们可以有定性的输入变量和定量的输入变量两者中的一些变量。这些也导致了预测中方法类型的不同：一些方法更自然地定义为 定量的输入变量，一些方法更自然地定义为 定性的输入变量，还有一些是两者都可以的。

第三种变量类型是 有序分类 (ordered categorical)，如 小(small)、中 (medium) 和 大 (large)，在这些值之间存在顺序，但是没有合适的度量概念（中与小之间的差异不必和大与中间的差异相等）。

定性的变量常用数字编码来表示。最简单的情形是只有两个分类，比如说“成功”与“失败”，“生存”与“死亡”。这些经常用一位二进制数来表示，比如 00 或 11，或者用 −1−1 和 11 来表示。因为一些显然的原因，这些数字编码有时被称作 指标 (targets)。当存在超过两个的类别，存在其他可行的选择。最有用并且最普遍使用的编码是 虚拟变量(dummy variables)。这里有 KK 个水平的定性变量被一个 KK 位的二进制变量表示，每次只有一个在开启状态。尽管更简洁的编码模式也是可能的，但虚拟变量在因子的层次中是对称的。

我们将经常把输入变量用符号 X 来表示。如果 XX 是一个向量，则它的组成部分可以用下标 Xj 来取出。定量的输出变量用 Y 来表示，对于定性的输出变量采用 G 来表示（group 的意思）。当指一般的变量，我们使用大写字母 X,Y,G, 来表示，对于观测值我们用小写字母来表示；因此 X 的第 i 个观测值记作 xi （其中，xi 要么是标量要么是向量）矩阵经常用粗体的大写字母来表示；举个例子，N 个 p 维输入向量 xi,i=1,⋯,N 可以表示成 N×p 的矩阵 X 。

一般地，向量不是粗体，除非它们有 N 个组成成分；这个约定区分了包含变量 Xj 的所有观测值的 N 维向量 xj 和第 i个观测值的 p 维向量 xi 。因为所有的向量都假定为列向量， X 的第 i 行是 xi 的转置 xiT。

现在我们可以不严谨地把学习叙述成如下：给定输入向量 X，对输出 Y 做出一个很好的估计，记为 Y^ 。如果 Y 取值为 R，则 Y^ 取值也是 R；同样地，对于类别型输出，G^ 取值为对应 G 取值的集合。

对于只有两种类别的 G，一种方式是把二进制编码记为 Y，然后把它看成是定量的输出变量。预测值 Y^ 一般落在 [0,1] 之间，而且我们可以根据 y^>0.5 来赋值给 G^ 。这种方式可以一般化为有 K 个水平的定性的输出变量。

我们需要数据去构建预测规则，经常是大量的数据。因此我们假设有一系列可用的测量值 (xi,yi) 或 (xi,gi),i=1,⋯,N,这也称之为 训练数据 (training data)，将利用这些训练数据去构建我们的预测规则。

小布归来了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习基础》监督学习概要2.1-2.2

2.1 导言第一章中依次举了4个例子：1>垃圾电子邮件例子中的数据包含 4601 封电子邮件的信息，在一项研究中试图预测一封电子邮件是否是垃圾邮件。目标是涉及一个自动垃圾邮件检测器，该检测器可以在邮件塞进用户邮箱前过滤掉垃圾电子邮件。对于所有的4601封电子邮件，可用的真实结果是邮件或者垃圾邮件，同时还有 57 个常用词和标点符号的相对频率。这是一个监督学习的例子，其中结果变...
复制链接

扫一扫

专栏目录