5.2 容量、过拟合和欠拟合
奥卡姆剃刀:多个能够解释已知观测现象的假设中,选择那个“最简单”的。
容量:拟合各种函数的能力,容量大于应用易过拟合,小于则易欠拟合。
VC维:Vapnik-Chervonenkis dimension, 度量二元分类器的容量。
参数模型: 函数观测到新数据之前,参数向量的分量个数有限且固定。(如线性回归)
非参数模型:复杂度大小与训练集大小有关,(如最近邻回归)
最近邻回归:模型存储了训练集中所有的X与y, 测试点x需要分类时,模型会查询训练集中最接近的点,返回回归目标。
数据集每个样本相互独立(服从独立同分布),
训练误差 vs. 测试误差(也叫泛化误差)
贝叶斯误差:从预先知道的真实分布p(x,y)预测而出现的误差。
容量小于最优容量的固定参数模型,会渐进到大于贝叶斯误差的误差值。
NFL定理:没有免费午餐定理:没有实际背景下,没有算法会比随机乱猜更好。(算法A在某些问题比算法B好,就会有在某些问题中不如B好)
5.2.2 正则化
修改训练学习算法,使其降低测试误差,而非训练误差
我们可给代价函数增加一个叫正则化项的惩罚。
在权重衰减来进行线性回归中:
J
(
w
)
=
M
S
E
(
t
r
a
i
n
)
+
λ
w
T
w
J(w) = MSE_(train) + \lambda w^T w
J(w)=MSE(train)+λwTw
λ
\lambda
λ 越小 ,容量越大,容易过拟合
wTw为正则项