第一章 绪论
学习算法 从数据中产生“模型”的算法
机器学习 研究关于学习算法的学问
模型 从数据中学得的结果 (在本书中的定义)
学习器 学习算法的抽象
数据集
D
=
{
x
1
,
x
2
,
⋯
,
x
m
}
D=\lbrace x_1,x_2, \cdots,x_m\rbrace
D={x1,x2,⋯,xm}
样本(示例)
x
i
=
(
x
i
1
,
x
i
2
,
⋯
,
x
i
d
)
x_i=(x_{i1},x_{i2},\cdots,x_{id})
xi=(xi1,xi2,⋯,xid)
特征(属性)
属性值
特征空间(样本空间) 以属性为轴张成的空间
χ
\chi
χ 为
d
d
d维空间
特征向量 即为一个样本,对应
χ
\chi
χ中的坐标向量
学习(训练) 通过执行学习算法从数据中学得模型
训练集 训练样本的集合
假设 由训练集学得的模型 目标:找出或逼近真相
真相(ground-truth) 潜在规律本身
标记(label)
样例 拥有标记的样本
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)
y
i
∈
Y
y_i\in{Y}
yi∈Y
标记空间
Y
Y
Y
-
分类任务 预测离散值
-
回归任务 预测连续值 Y = R Y=R Y=R实数集
-
二分类 → \rightarrow →正类/反类 Y = { 0 , 1 } Y=\lbrace0,1\rbrace Y={0,1}或 Y = { − 1 , 1 } Y=\lbrace-1,1\rbrace Y={−1,1}
-
多分类 → \rightarrow →建立映射 f : χ → Y f:\chi\rightarrow{Y} f:χ→Y ∣ Y ∣ > 2 |Y|>2 ∣Y∣>2
测试 使用模型进行预测
测试集 测试样本
x
x
x 预测标记
y
=
f
(
x
)
y=f(x)
y=f(x)
聚类 将训练集样本分成若干簇,(训练集不包含标记信息)
- 监督学习
- 无监督学习
泛化能力 学得模型适用于新样本的能力
通常假设样本空间中全体样本服从一个未知分布D,我们获得的每个样本都是i.i.d(独立同分布)采样得到的。
一般而言,训练样本越多,得到的关于D的信息越多,越有可能得到泛化能力强的模型。
归纳学习
\quad
广义上:从样例(即带标记的数据)中学习
\quad
狭义上:“概念学习”——从训练数据中学得概念,较困难,研究较少
假设空间 所有假设组成的空间
可将学习过程看作在假设空间进行搜索的过程
搜索目标:找到与训练集匹配的假设
搜索策略:如 自顶向下(一般到特殊),自底向上(特殊到一般)等
搜索过程:不断删除与正例不一致的假设,不断删除和反例一致的假设
搜索结果:与训练集一致的假设(一个假设集合)——版本空间
版本空间 与训练集一致的假设集合
归纳偏好 机器学习算法在学习过程中对某种类型假设的偏好——机器学习算法对假设进行选择的启发式或价值观
(机器学习算法一定具有归纳偏好,因为必须对一个输入产生确定的学习结果)
奥卡姆剃刀 “若有多个假设与观察一致,则选择最简单的那个” ——但“最简单”在很多时候也存在多种解释
算 法 的 归 纳 偏 好 是 否 与 问 题 本 身 匹 配 , 大 多 数 时 候 直 接 决 定 了 算 法 是 否 能 取 得 好 的 性 能 \color{red}{算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否能取得好的性能} 算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否能取得好的性能
NFL定理 “没有免费的午餐”
无论学习算法
γ
a
\gamma_a
γa多聪明,学习算法
γ
b
\gamma_b
γb多笨拙,它们的期望性能相同。
(前提:所有“问题”同等重要——但实际中,我们往往只关注当前试图解决的问题)
→
\rightarrow
→具体问题具体分析