基本术语
概念 | 英文名 | 数学表达 | 别称 | 定义 |
---|---|---|---|---|
数据集 | data set | D = { x 1 , x 2 , … , x m } D=\{\bm{x}_1,\bm{x}_2,\dots,\bm{x}_m\} D={x1,x2,…,xm} | 一组记录的集合 | |
属性 | attribute / feature | x i = ( x i 1 ; x i 2 ; … ; x i d ; ) \bm{x}_i=(x_{i1};x_{i2};\dots;x_{id};) xi=(xi1;xi2;…;xid;) | 特征 | 每个示例由 d d d个属性描述 |
属性值 | attribute value | x i j x_{ij} xij | 属性上的取值 | |
示例 | instance / sample / feature vector | x i \bm{x}_i xi | 样本、特征向量 | 关于一个事件或对象的描述构成的一条记录,每个示例是 d d d维样本空间 X X X中的一个向量, x i ∈ X \bm{x}_i\in X xi∈X |
样本空间 | attribute space / sample space | X X X | 属性空间、输入空间 | 属性张成的空间 |
标记 | label | y i y_i yi | 关于示例结果的信息, y i ∈ Y y_i \in Y yi∈Y | |
标记空间 | label space | Y Y Y | 输出空间 | 所有标记的集合 |
样例 | example | ( x i , y i ) (\bm{x}_i,y_i) (xi,yi) | 拥有了标记信息的示例 | |
假设 | hypothesis | 学得模型对应了关于数据的某种潜在的规律 | ||
真相 | ground-truth | 真实 | 数据的潜在规律自身 |
重要概念
泛化能力:学得模型适用于新样本的能力,具有强泛化能力的模型能很好地适用于整个样本空间。
假设空间:我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜素目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
版本空间(version space):可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,版本空间是假设空间的子集。
归纳偏好:对于一个具体的学习算法而言,它必须要产生一个模型。这时,学习算法本身的“偏好”会起到关键的作用。算法可能会喜欢“尽可能特殊”、“尽可能一般”、“更相信某一种属性”。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,简称为“偏好”。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
奥卡姆剃刀:若有多个假设与观察一致,则选用最简单的那个(回归中表现为选择更平滑的曲线)
重要定理
NFL定理:在真实函数为均匀分布的情况下,对于一个学习算法
ξ
a
\xi_a
ξa,若它在某些问题上比学习算法
ξ
b
\xi_b
ξb好,则必然存在另一些问题,在那里
ξ
b
\xi_b
ξb比
ξ
a
\xi_a
ξa好。
在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。