什么是机器学习
机器学习:通过算法使得机器从大量历史数据中学习规律,从而对新样本做出分类或者预测
基本术语
泛化能力:学得模型应用新样本的能力
- 有监督学习:回归、分类
- 无监督学习:降维、聚类
假设空间
- 归纳是特殊到一般的泛化过程
- 演绎是从一般到特殊的特化过程
- 概念学习要求从训练数据学得概念
- 布尔概念学习:对是、不是这样的可以表示成0/1布尔值的目标概念学习
学习的过程可以看作一个在所有假设组成的空间中进行搜索的过程。搜索目标是找到与训练集“匹配”的假设。
版本空间
版本空间:与训练集一致的假设空间
题目:求取下列数据集的版本空间?
计算
训练数据集对应的假设空间应该如下:
色泽 | 根蒂 | 敲声 |
---|---|---|
* | * | * |
青绿 | * | * |
乌黑 | * | * |
浅白 | * | * |
… | … | … |
… | … | … |
… | … | … |
… | … | … |
浅白 | 蜷缩 | 浊响 |
总共的假设空间数量为:(3+1)*(3+1)*(3+1)+ 1 = 65
*
代表任取,也算是一种情况;最后+1
是因为一种全为任取情况;
学习(拿每一个假设去对照数据是否都正确,如果全部数据都正确则可认定为是新的假设,否则删除)过后剩余的假设为:
色泽 | 根蒂 | 敲声 |
---|---|---|
* | 蜷缩 | * |
* | * | 浊响 |
* | 蜷缩 | 浊响 |
这就是最后的“假设集合”,也就是“版本空间”。
归纳偏好
归纳偏好(简称“偏好”):机器学习算法在学习过程中对某种类型的假设的偏好。