目录
目录
统计学习包括监督学习、非监督学习、半监督学习和强化学习,本书主要讨论的是监督学习。
区分分类问题与回归问题的标准:输出变量是否为连续值。
假设空间:模型∈由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设看空间的确定意味着学习范围的确定。
一、交叉验证
常见的模型选择方法有正则化和交叉验证。
如果样本充足,常见的方法是随机地将数据集分割成训练集、验证集和测试集。在学习到的不同(复杂度的)模型中,分别用验证集进行评估,并选择对验证集有最小预测误差的模型。
当样本不足的时候,可以采用交叉验证的方法。
1.1 简单交叉验证
将模型划分成训练集和测试集,选择对测试集有最小预测误差的模型。即,将验证集和测试集“合二为一”.
1.2 S折交叉验证
将模型划分成S个互不相交的、大小相等的子集。将其中S-1个子集作为训练集,余下1个子集进行测试,重复S次,取均值作为平均测试误差。选择平均测试误差最小的模型。
1.3 留一交叉验证
S折交叉验证的一种特殊情况