机器学习:取代人类基于经验做出的判断
核心:研究如何通过计算的手段,利用经验来改善系统自身的性能
计算机+数据——产生模型算法,即“学习算法”——产生模型——进行经验预测
一些基本术语:
- 数据(Data):一批关于某物体的信息。
- 数据集 (Dataset):关于物体的信息记录的集合。
- 样本:关于物体的一组记录(数据)。
- 属性:反映对象在某方面的性质的事项。
- 属性值:上述事项的取值。
- 属性空间(样本空间):属性们的集合。
- 学习(训练):从数据中学得模型的过程。
- 训练数据:训练模型过程中使用的数据。
- 训练样本:训练模型过程中使用的每一个样本。
- 训练集:所有训练样本得集合。
- 假设:学得模型对应了关于数据的某种潜在的规律,称为“假设”。
- 真实(真相):真实存在的潜在规律自身。
学习过程就是为了找出或逼近真相
- 模型:学习算法在给定数据和参数空间上的实例化。
- 标记:关于示例结果的信息。
- 标记空间:标记的集合。
预测离散值——做判断——分类任务
预测连续值——做程度分析——回归任务:二分类,多分类任务等
划分潜在概念——学习潜在规律——聚类
- 测试:使用学习好的模型进行预测的过程。
- 测试样本:测试过程中被预测的样本。
监督学习:分类和回归任务(事先知道学习目标和效果)
无监督学习:聚类任务(事先不知道,一切看结果)
根据训练数据是否拥有标记信息划分
机器学习的目标:使学得的模型能更好的适用于新样本,而不只适用于训练样本。
- 泛化能力:模型适用于新样本的能力。越强越好。
- 独立同分布:采样要求。样本之间采集互不干扰,且符合相同的样本分步条件。
归纳:从特殊到一般的泛化过程——从具体的事实归结出一般性规律。
演绎:从一般到特殊的泛化过程——出基础原理推演出具体状况。
- 假设空间:所有可能假设组成的集合
学习过程:在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。
也就是说将所有可能的潜在规则列出来,进行搜索筛选,最终留下来的符合训练集的描述的假设就是真相。
- 版本空间:假设空间中满足训练集要求的“假设集合”
- 偏好:选择偏好
- 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
看似奇怪,实则必须。任何一个有效的学习模型必须具有偏好,否则会被相似选项迷惑,无法产生确定的学习效果
归纳偏好是机器学习模型的“价值观”,决定了模型算法的性能
无偏好,见下文NFL(所有问题同等重要)
(偏好选择)奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那一个。
没有免费的午餐定理(No Free Lunch, NFL):如果所有问题出现的机会相同,则学习算法的期望性能完全相同,约等于随机乱猜——脱离具体问题,空泛的谈“什么学习算法更好”毫无意义。