第01章 引言
第0节 概述
- 模式识别定义:模式识别领域是通过使用计算机算法自动发现数据中的规律,并利用这些规律采取行动。
- 举例:手写数字识别
- 泛化能力定义:将训练集中未出现的数据正确分类的能力。泛化能力是模式识别的核心目标。
- 在实际应用中,通常对输入进行预处理,目的有二:(1)模式识别问题更好处理;(2)计算加速。需要注意的是,对测试输入也要进行同样的预处理。
- 监督学习:训练数据包含相应的目标向量。
- 监督学习包括分类(目标向量为有限的离散类别)和回归(目标向量为连续变量)。
- 无监督学习:训练数据不包含目标向量。
- 无监督学习包括聚类(在数据中发现相似样本分组),密度估计(在输入空间中确定数据分布),降维(将数据从高维空间投影至2或3维数据,主要目的是可视化)。
- 强化学习:在给定的情况下找到合适的行动来最大化回报的问题,通过反复试验给出最优输出。
第1节 举例:多项式曲线拟合
- 假设获得实数输入变量 x \mathbf{x} x,目的是预测实数目标变量 t \mathbf{t} t的值。
- 本节中考虑生成数据: t = sin ( 2 π x ) \mathbf{t}=\sin(2\pi \mathbf{x}) t=sin(2πx)。
- 假设给定数据集
x
≡
(
x
1
,
…
,
x
N
)
T
\mathbf{x} \equiv(x_1, \dots, x_N)^T
x≡(x1,…,xN)T和
t
≡
(
t
1
,
…
,
t
N
)
T
\mathbf{t} \equiv (t_1, \dots, t_N)^T
t≡(t1,…,tN)T。数据如下图所示。
- 概率论为以精确和定量的方式表达这种不确定性提供了一个框架。
- 决策理论允许我们利用这种概率表示,以便根据适当的标准做出最优的预测。