【统计学习笔记】模型选择方法:正则化与交叉验证
1. 正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项。正则化项一般是模型复杂度的单调递增函数。正则化一般具有如下形式:
min
f
∈
F
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
…
…
(
1
)
\min\limits_{f\in\mathcal{F}}=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))+\lambda J(f) ……(1)
f∈Fmin=N1i=1∑NL(yi,f(xi))+λJ(f)……(1)
正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数或L1范数等。
2. 交叉验证
将数据切分为训练集、验证集和测试集,训练集用于训练模型,验证集用于选择模型,测试机用于评估学习方法。
2.1 简单交叉验证
- 随机将数据分为训练集和测试集。
- 用训练集在不同条件下训练模型,从而得到不同的模型。
- 在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
2.2 S折交叉验证
- 随机将已有数据分为S个互不相交、大小相同的子集。
- 利用S-1个子集训练模型,余下子集测试模型。
- 将这一过程的S种选择重复进行。
- 选出S次评测中平均测试误差最小的模型。
2.3留一交叉验证
S折交叉验证中,每个子集只有一个数据,即S=N。往往在数据缺乏的情况下使用。