西瓜书笔记系列 - 第1章 绪论 - 1.2 基本术语

西瓜书笔记系列 - 目录


1.2 基本术语

术语集见文末。因为是边读边做的笔记,且是第一次读这本书的笔记,所以除了零零散散添加的想法以外,做得有点像单纯的转述摘抄了。
  
  如这一组关于西瓜的记录:(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),……
  这些记录是关于某一个事物的描述,称为示例样本,它们构成的集合称为数据集。其中如"色泽"、“根蒂”、“敲声”,反映了事物在某方面的性质,称为属性特征,其取值"青绿"、“蜷缩”、“浊响"则称为属性值。以各个属性为坐标轴,可以张开一个多维空间,即样本空间,每个样本都可以用从原点开始的一个向量表示,因而一个样本又称一个特征向量
  有时整个数据集也称一个样本,因为它可以看做是对整个样本空间的一个采样,一般通过上下文判断。
  用 X \mathcal X X 表示样本空间, D D D 表示数据集, m m m 表示样本数, x i x_i xi 表示第 i i i 个样本, x i j x_{ij} xij 表示 x i x_i xi 的第 j j j 个属性, d d d 表示属性数,也称维数。则:
  
     D = { x 1 , x 2 , . . . , x m } D = \{x_1, x_2, ..., x_m\} D={x1,x2,...,xm}
     x i = ( x i 1 , x i 2 , . . . , x i d ) T x_i = (x_{i1}, x_{i2}, ..., x_{id})^T xi=(xi1,xi2,...,xid)T
      = ( x i 1 ; x i 2 ; . . . ; x i d ) = (x_{i1}; x_{i2}; ...; x_{id}) =(xi1;xi2;...;xid) (转置)
     x i ∈ X x_i \in \mathcal X xiX
    
  然而,为了对新的样本进行预测,我们还需要这些样本的"结果”,也称标记标签,如"好瓜"、“坏瓜”。将样本标记组合起来,如((色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),好瓜),就叫样例。若将标记看做事物本身的一部分,则样例有时也称样本,在实际应用中,样本和样例往往不加区分。一般地,用 ( x i , y i ) (x_i, y_i) (xi,yi) 表示第 i i i 个样例, 其中 y i ∈ Y y_i \in \mathcal Y yiY 是样本 x i x_i xi 的标记, Y \mathcal Y Y 是所有标记的集合,也称标记空间输出空间。于是学得的模型,就可以看作是一个从输入空间 X \mathcal X X 到输出空间 Y \mathcal Y Y 的映射 f : X ↦ Y f : \mathcal X \mapsto \mathcal Y f:XY
  执行学习算法,利用数据产生模型的过程称为学习训练,其中使用的数据称为训练数据,用集合来表示即是训练集。每个样本称为一个训练样本训练示例训练例。数据中可能存在的潜在规律,称为真相真实,相对地,得到的模型是对潜在规律不断逼近的结果,故称为(对潜在规律的)假设
  有了模型,我们便可以输入新样本来得到对其标记的预测。若要预测的是离散值,则学习任务称为分类,若是连续值,则称为回归。分类任务又分二分类多分类。若用 ∣ Y ∣ |\mathcal Y| Y 表示样本空间中样本的总数,当 ∣ Y ∣ = 2 |\mathcal Y| = 2 Y=2,就是二分类,若 ∣ Y ∣ > 2 |\mathcal Y| > 2 Y>2,就是多分类。对于二分类,通常令 ∣ Y ∣ = { − 1 , + 1 } |\mathcal Y| = \{-1, +1\} Y={1,+1} { 0 , 1 } \{0,1\} {0,1},并根据习惯将其中一个标记对应的样本称为正类,另一个称为反类负类。正类和反类是相对的,并没有明确的规定哪个是正类,哪个是反类。而对于回归任务, Y ∈ R \mathcal Y \in \mathbb R YR
  有了预测,我们就可以对预测进行测试,以验证模型的正确与否,其中使用的样本叫测试样本。用模型 f f f 对测试样本 x i x_i xi 进行预测得到标记 y i y_i yi 的过程用公式表达即为: y i = f ( x i ) y_i = f(x_i) yi=f(xi)
  我们还可以对样本做聚类,将训练集中的样本分为若干组,每组称为一个。这些簇可能暗示着不同的潜在概念,如对上文的西瓜样本做聚类,算法可能会从数据分布中发现"浅色瓜"、“深色瓜”,甚至"本地瓜"、"外地瓜"的不同。这些概念是事先不知道的,训练用的样本往往也不带有标记信息。
  根据训练数据是否拥有标记信息,学习任务大致分为两大类,监督学习无监督学习,分类和回归是前者的代表,而聚类则是后者的代表。
  需要注意的是,我们希望模型能很好适用于未见样本,而非仅适用于训练样本(过拟合)。模型适用于新样本的能力被称为泛化能力,而较强的泛化能力与合理采样的训练集有密不可分的关系。所以,我们希望训练集能很好地反映样本空间的特性。通常假设样本空间中全体样本服从某个未知分布 D \mathcal D D,我们采集的样本全都基于这个分布,且采集的样本间相互独立,即这些样本是独立同分布。一般而言, 训练样本越多,得到的关于 D \mathcal D D 的信息就越多,越有可能得到较强泛化能力的模型。

术语集合:(包括第一章1.1、1.2,有修改及补充。)
 模型(model)
  =学习器(learner)
 数据集(data set)
 示例(instance)
  =样本(sample)
  =特征向量(feature vector)
 属性(attribute)
  =特征(feature)
 属性值(attribute value)
 维数(dimensionality)
 属性空间(attribute space)
  =样本空间(sample space)
  =输入空间(input space)
 学习(learning)
  =训练(training)
 训练数据(training data)
  =训练集(training set)
 训练样本(training sample)
  =训练示例、训练例(training instance)
 假设(hypothesis)
 真相、真实(ground-truth)
 参数(argument)
 参数值(argument value)
 预测(prediction)
 标记、标签(label)
 样例(example)
 标记空间(label space)
  =输出空间(output space)
 分类(classification)
 回归(regression)
 二分类(binary classification)
 正类(positive class)
 反类、负类(negative class)
 多分类(multi-class classification)
 测试(testing)
 测试数据(testing data)
  =测试集(testing set)
 测试样本(testing sample)
  =测试示例、测试例(testing instance)
 聚类(clustering)
 簇(cluster)
 簇划分(cluster division)
  //原文没有详细说明,仅仅一笔带过,个人认为:
  //指将训练集划分成不同簇的操作,或指其中的一种方案
  //与聚类的概念很相似,大概一般聚类也指簇划分,反之亦然
  //如:“对这个训练集做簇划分”、“这样便构成一种簇划分”
  //聚类的方法很多,有基于分层的聚类,有基于划分的聚类
  //有基于密度的聚类,还有基于网格的聚类
  //簇划分应与基于划分的聚类有较为紧密的联系
 监督学习、有导师学习(supervised learning)
 无监督学习、非监督学习、无导师学习(unsupervised learning)
 未见示例(unseen instance)
  =未见样本(unseen sample)
 泛化(generalization)
 分布(distribution)
 独立(independence)
 独立同分布(independent and identically distribution, i.i.d.)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值