《统计学习基础》监督学习概要2.1-2.2

2.1 导言

第一章中依次举了4个例子:

1> 垃圾电子邮件

例子中的数据包含 4601 封电子邮件的信息,在一项研究中试图预测一封电子邮件是否是垃圾邮件。目标是涉及一个自动垃圾邮件检测器,该检测器可以在邮件塞进用户邮箱前过滤掉垃圾电子邮件。对于所有的4601封电子邮件,可用的真实结果是邮件或者垃圾邮件,同时还有 57 个常用词和标点符号的相对频率。这是一个监督学习的例子,其中结果变量是类别型变量 email/spam。这也被称作分类问题。

表 1.1 列出了垃圾邮件和普通邮件平均差异比较大的单词和字符。

我们的学习方法要决定用哪个特征以及怎么使用,比如说,我们会有下述规则

当(%george < 0.6) 且 (%you > 1.5)时,为垃圾邮件,否则为普通邮件

或者另一条规则

当(0.2 · %you − 0.3 · %george) > 0时,为垃圾邮件,否则为普通邮件

对于这个问题不是所有的错误都相等,我们想要避免过滤掉好的电子邮件,尽管让垃圾邮件通过不是想要的但是结果不是很严重。我们将在本书中讨论一系列不同的方法来解决这个学习问题。

2> 前列腺癌的诊断

来自 Stamey et al. (1989) 检验 前列腺癌特定抗原水平 (PSA) 和临床措施之间相关性的研究,其中有 97 名男性接受了彻底的前列腺切除术。

目标是根据癌体积的对数值(lcavol)、前列腺重量的对数值(lweight)、良性前列腺增生数量(lbph)、精囊浸润(svi)、包膜浸透的对数值(lcp)、Gleason得分(gleason)、Gleason得分为4或5的比例(pgg45)来预测PSA的对数值(lpsa)。图1.1是这些变量的散点图矩阵。一些和(lpsa)的值是显著的,但是一个好的预测模型是很难根据眼睛构造出来的。

这是一个监督学习的问题,也称之为回归问题,因为结果测量是可量化的。

3> 手写数字识别

这些图片都已经被标准化为几乎同样尺寸同样方向的图片了。任务是从 16×1616×16 的灰度值矩阵中快速又准确地判断每张图片上的数字(0,1,…,9)。如果结果够精确,最终的算法会用到自动整理信封的过程中。这是一个分类问题,而且要求犯错误概率要很低避免分错邮箱。为了实现低错误率,一些物品要被分到不知道这个类里面,然而人工分拣。

4> 基因表达微阵列

DNA是脱氧核糖核酸,而且是组成人类染色体的基本材料。DNA表达微阵列通过测量一个细胞某基因的mRNA的量来衡量基因的表达情况。DNA表达微阵列被当作一个生物学领域的重大突破,促进了对单个细胞内成千上万基因同时量化研究。

下面介绍DNA表达微阵列如何工作。几千个基因的核苷酸序列打印在载玻片上。分别用红色和绿色染料标记目标样本和参照样本,并且每个都与载玻片上的DNA混合。通过X光透视检查,可以测量出每个位置上红色/绿色的RNA强度之比的对数值。结果是几千个数,基本上在-6到6之间,衡量每个目标样本中基因相对于参考样本中基因的表达水平。正值表示目标样本中基因表达程度更高,反之亦然。

一个基因表达数据集收集了一系列DNA微阵列实验中的表达的值,每一列表示一次实验。因此几千行表示几千个不同的基因,每一列表示一个样本:在图 1.3 中有 6830 个基因(行)和 64 个样本(列),尽管为了清晰只有一个随机样本的100行显示出来。这张图是用热点图显示了该数据集,从绿色(消极)到红色(积极)。样本是从不同病人得到的64个癌症肿瘤。

这里的挑战是理解基因和样本是怎样组织起来的。典型的问题有如下几个:

(a) 根据基因的表达谱,哪些样本两两之间最相似?

(b) 根据样本的表达谱,哪些基因两两之间最相似?

(C) 对于特定的癌症样本,特定的基因是否有非常高或低的表达?

我们可以把这个任务看成是回归问题,有两个类别型自变量——基因和样本——以及对应变量的表达水平。然而,把这个问题看成是非监督学习可能更有用。例如,对于上述的问题(a),我们把样本看成是6830维空间中的一点,并且想通过某种方式对其进行聚类。

上面4个例子,都有一些共同的组成成分。每一个例子中都有一个变量集,可以记作输入变量(inputs),可以先简单理解为函数表达式(x,y)中的x变量。输入变量是可以测量得到或者预设的,也就是说它一般是已知的变量。它对一个或多个输出变量 (outputs) 产生影响。每个例子的目标便是利用输入变量去预测输出变量,即为用已知的x预测未知的y。这样的过程被称为监督学习 (supervised learning)。

在统计学中,输入变量 (inputs) 通常称作 预测变量 (predictors),这是一个与输入变量等价的说法,更经典的说法是 自变量 (independent variables)。在模式识别中,更倾向于采用 特征 (features) 的说法,我们也会采用这一说法。输出变量 (outputs) 被称作 响应变量(responses),或者更经典的说法是 因变量 (dependent variables)

2.2 变量类型与术语

输出类型的差别导致对预测的命名规定:当我们预测定量的输出时被称为 回归 (regression),当我们预测定性的输出时被称为 分类(classification)。我们将会看到这两个任务有很多的共同点,特别地,两者都可以看成是函数逼近。

输入变量也有各种各样的测量类型;我们可以有定性的输入变量和定量的输入变量两者中的一些变量。这些也导致了预测中方法类型的不同:一些方法更自然地定义为 定量的输入变量,一些方法更自然地定义为 定性的输入变量,还有一些是两者都可以的。

第三种变量类型是 有序分类 (ordered categorical),如 小(small)中 (medium) 和 大 (large),在这些值之间存在顺序,但是没有合适的度量概念(中与小之间的差异不必和大与中间的差异相等)。

定性的变量常用数字编码来表示。最简单的情形是只有两个分类,比如说“成功”与“失败”,“生存”与“死亡”。这些经常用一位二进制数来表示,比如 00 或 11,或者用 −1−1 和 11 来表示。因为一些显然的原因,这些数字编码有时被称作 指标 (targets)。当存在超过两个的类别,存在其他可行的选择。最有用并且最普遍使用的编码是 虚拟变量(dummy variables)。这里有 KK 个水平的定性变量被一个 KK 位的二进制变量表示,每次只有一个在开启状态。尽管更简洁的编码模式也是可能的,但虚拟变量在因子的层次中是对称的。

我们将经常把输入变量用符号 X 来表示。如果 XX 是一个向量,则它的组成部分可以用下标 Xj 来取出。定量的输出变量用 Y 来表示,对于定性的输出变量采用 G 来表示(group 的意思)。当指一般的变量,我们使用大写字母 X,Y,G, 来表示,对于观测值我们用小写字母来表示;因此 X 的第 i 个观测值记作 xi (其中,xi 要么是标量要么是向量)矩阵经常用粗体的大写字母来表示;举个例子,N 个 p 维输入向量 xi,i=1,⋯,N 可以表示成 N×p 的矩阵 X 。

一般地,向量不是粗体,除非它们有 N 个组成成分;这个约定区分了包含变量 Xj 的所有观测值的 N 维向量 xj 和第 i个观测值的 p 维向量 xi 。因为所有的向量都假定为列向量, X 的第 i 行是 xi 的转置 xiT。

现在我们可以不严谨地把学习叙述成如下:给定输入向量 X,对输出 Y 做出一个很好的估计,记为 Y^ 。如果 Y 取值为 R,则 Y^ 取值也是 R;同样地,对于类别型输出,G^ 取值为对应 G 取值的集合 。

对于只有两种类别的 G,一种方式是把二进制编码记为 Y,然后把它看成是定量的输出变量。预测值 Y^ 一般落在 [0,1] 之间,而且我们可以根据 y^>0.5 来赋值给 G^ 。这种方式可以一般化为有 K 个水平的定性的输出变量。

我们需要数据去构建预测规则,经常是大量的数据。因此我们假设有一系列可用的测量值 (xi,yi) 或 (xi,gi),i=1,⋯,N,这也称之为 训练数据 (training data),将利用这些训练数据去构建我们的预测规则。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值