这里写目录标题
监督学习三要素
- 模型
总结数据内在规律,用数学函数描述的系统 - 策略
选取最优模型的评价准则 - 算法
选取最优模型的具体方法
监督学习主要步骤
- 得到一个有限的训练数据集
- 确定包含所有学习模型的集合
- 确定模型选择的准则,也就是学习策略
- 实现求解最优模型的算法,也就是学习算法通过学习算法选择最优模型
- 利用得到的最优模型,对新数据进行预测或分析
监督学习模型评估策略
- 模型评估
– 训练集和测试集
– 损失函数和经验风险
– 训练误差和测试误差 - 模型选择
– 过拟合和欠拟合
– 正则化和交叉验证
训练集
输入到模型中对模型进行训练的数据集合
测试集
模型训练完成后测试训练效果的数据集合
损失函数
损失函数是用来估量你模型的预测值f(x)与真实值Y的误差大小,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。
0-1 损失函数
可以看出上述的定义太过严格,如果真实值为1,预测值为0.999,那么预测应该正确,但是上述定义显然是判定为预测错误。
平方损失函数(经常用于回归中)
绝对损失函数(经常用于回归中)
对数损失函数
经验风险
– 模型 f(X) 关于训练数据集的平均损失称为经验风险(empirial risk),记作 Remp
• 经验风险最小化(Empirical Risk Minimization,ERM) – 这一策略认为,经验风险最小的模型就是最优的模型
– 样本足够大时,ERM 有很好的学习效果,因为有足够多的“经验”
– 样本较小时,ERM 就会出现一些问题
训练误差和测试误差
训练误差
– 训练误差(training error)是关于训练集的平均损失。
– 训练误差的大小,可以用来判断给定问题是否容易学习,但本质上并不重要
测试误差
– 测试误差(testing error)是关于测试集的平均损失。
– 测试误差真正反映了模型对未知数据的预测能力,这种能力一般被称为 泛化能力
模型选择
正则化
交叉验证
- 数据集划分
– 如果样本数据充足,一种简单方法是随机将数据集切成三部分:训练集(trainingset) 、验证集(validation set)和测试集(test set)
– 训练集用于训练模型, 验证集用于模型选择,测试集用于学习方法评估
数据不充足时,可以重复地利用数据–交叉验证(cross validation)
-
简单交叉验证
– 数据随机分为两部分,如70%作为训练集,剩下30%作为测试集
–训练集在不同的条件 下(比如参数个数)训练模型,得到不同的模型
–在测试集上评价各个模型的测试误差,选出最优模型 -
S折交叉验证
– 将数据随机切分为S个互不相交、相同大小的子集; S-1个做训练集,剩下一个做测试集-重复进行训练集 、测试集的选取,有S种可能的选择 -
留一交叉验证