一、基本术语
1.数据概念
1、“数据集”:记录的集合
2、“示例”或“样本”:反映事件或对象在某方面的表现或性质的事项
3、“属性”或“特征”:一个事物的特征,如书中介绍的西瓜的色泽
4、“属性值”:属性上的取值,如西瓜的青绿
5、“属性空间”或“样本空间”或“输入空间”:属性张成的空间
2.训练概念
1、“学习”或“训练”:从数据中学得模型的过程
2、“训练数据”:训练过程中使用的数据
3、“训练样本”:训练过程中的每一个样本
4、“训练集”:训练样本组成的集合
5、“假设”:学得模型对应了关于数据的某种潜在规律
6、“真相”或“真实”:潜在规律自身
7、“标记”:关于示例结果的信息
8、“样例”:拥有了标记信息的示例
(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合,亦称“标记空间”或“输出空间”
3.学习任务
“测试”:使用学得模型进行预测的过程
“测试样本”:被预测的样本
“正类”,“反类”:“二分类”任务中的两类。
“多分类”:涉及多个类别
在“聚类”学习中将训练集中的样本分成若干组,每组成为一个“簇”
“泛化”:学得模型适用于新样本的能力
“独立同分布”:每个样本都是独立地从这个分布上采样获得
二、假设空间
狭义的归纳学习亦称“概念学习”或“概念形成”,布尔概念学习是最基本的概念学习,下面举一个布尔学习的例子,并通过该例引出假设空间及相关。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍卷 | 沉闷 | 否 |
假设空间:所有假设组成的空间,假设的表示一但确定,假设空间及其规模大小就确定了。
版本空间:“假设空间”中与训练值一致的假设集合。
学习过程:在假设空间中进行搜索的过程。
这里我们建设形如“(色泽=?)∧(根蒂=?)∧(敲声=?)”的可能取值所形成的假设组成,例如“色泽”可取为“青绿”,“乌黑”及“﹡”(无论取什么值都合适)。以此类推,假设空间大小为3×4×4,除此之外有可能“好瓜”概念不成立,我们用∅表示假设空间规模大小为3×4×4+1。
根据表格所得版本空间(色泽=﹡,根蒂=蜷缩,敲声=浊响),(色泽=﹡,根蒂=﹡,敲声=浊响),(色泽=﹡,根蒂=蜷缩,敲声=﹡)。
三、归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
在实际建模中,“奥卡姆剃刀”是一种常用的基本原则:若多个假设与观察一致,选择最简单的那个。
但根据NFL定理(No Free Lunch Theorem :天下没有免费的午餐)具体问题应具体对待,学习算法自身的归纳偏好与问题是否相配,往往起绝对作用。