1.1 引言
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。主要内容是在计算机上从数据中产生model的算法,及“学习算法”。
1.2 基本术语
基本术语 | 释义 |
---|---|
数据集 D D D | 数据记录的集合 |
样本 x i x_i xi(示例) | 单独一条记录 |
属性(特征) | 反映事物或对象在某方面的表现或性质的事项 |
属性值 | 属性上的取值 |
属性空间 X X X(样本空间、输入空间) | 属性张成的空间 |
训练数据(training data) | 训练过程中使用的数据 |
真实/真相(ground truth) | 模型需要学习的潜在规律本身 |
(一)预测模型
-
若预测的是离散值,则称为“分类”任务;若预测的是连续值,则称为“回归”任务。
-
若只涉及两个类别的“二分类”任务,其中一个为正类,一个为反类。
-
若任务具有多个类别,则成为“多分类”任务。
(二)聚类模型
按照一些潜在的概念将样本划分为若干组,每一组称为一个cluster(簇)。
(三)泛化概念
-
模型适用于新样本的能力,称为“泛化”能力。
-
通常假设样本空间中全体样本服从一个未知分布,每个样本都是从独立地从这个分布上采样获得的,即“独立同分布”。
1.3 假设空间
- 假设空间:所有假设组成的空间
- 版本空间:与训练集一致的“假设集合”
1.4 归纳偏好
若
γ
a
\gamma_a
γa为算法
a
a
a在训练集之外的所有样本的误差,
γ
b
\gamma_b
γb为算法
b
b
b在训练集之外的所有样本的误差,则有:
∑
f
E
o
t
e
(
γ
a
∣
X
,
f
)
=
∑
f
E
o
t
e
(
γ
b
∣
X
,
f
)
\sum_fE_{ote}(\gamma_a|X,f)=\sum_fE_{ote}(\gamma_b|X,f)
f∑Eote(γa∣X,f)=f∑Eote(γb∣X,f)
即算法本身并无好坏之分,只有在某一具体问题上的好坏之分。一种算法在某种问题上具有很好的表现,则肯定在其他某种问题上有很差的表现。
1.5 发展历程
1.推理期
2.知识期
- 1980s:从样例中学习
- 1990s:统计学习
- 2000s:深度学习