题记
“经验风险” “期望风险” “结构风险”这几个词是在机器学习中经常碰到的几个词汇,它们分别代表什么含义?它们之间的关系是什么呢? 曾经我以为我知道了,今天听课,又得到了一些新的相关知识。所以再汇总总结一下。网上的信息参差不齐,所以还是以比较权威的参考书为纲比较好。以下内容主要参考以下三本参考书:
[1]《机器学习(第一版)》周志华。 132页~133页。6.4节。
[2]《模式识别(第三版)》张学工。第74~75页。4.6.2节。
[3]《统计学习方法(第二版)》李航。第16~19页。1.3.2节。
其中,对于结构风险的定义,在《模式识别》中没有提到,而在《机器学习》与《统计学习方法》中又有所不同。根据个人理解,我更倾向于《机器学习》中的定义。
基础概念:
对于某个样本,其真实的标签为,我们用模型来估计, 其中是模型的参数。则:
误差(error)[1]:模型的预测输出与样本的真实标签之间的差异。
训练误差(training error)[1]:模型在训练集上的误差。个人理解,应该适用于单个样本情况和多个样本情况。
泛化误差(generalization error)[1]:模型在新样本上的误差。通常用测试误差作为对泛化误差的近似。
经验风险(empirical risk):模型在整个训练数据集上的误差的均值。
期望风险(expected risk):模型在所有可能出现的样本(包括训练集,测试集和其它未采集的样本)上的误差的均值。
其中,表示所有可能出现的样本及其标签的联合概率分布。
结构风险(structural risk):在不同的参考书中有不同的定义。
《机器学习》书中:,是一个与模型复杂度相关的量,模型越复杂,结构风险越大。
《统计学习方法》书中:
个人倾向于《机器学习》中的定义。
关系:
(1) 根据大数定律,当训练样本数目N趋于无穷时,经验风险趋于期望风险。
(2)一般:
期望风险 > 经验风险
期望风险 < 经验风险 + 系数*结构风险 , 这里结构风险用的《机器学习》中的定义.
即,在有限样本下,期望风险有上界。
(3)结构风险的最小化 模型参数正则化。
具体[2]:
期望风险的上界:
其中表示样本数目;表示模型的VC维(VC Dimension),反映模型的复杂度。
VC维的特性:如果模型的参数, 表示包含所有训练样本的最小超球体的半径,表示样本特征的维度,则模型的VC维有上界:
分析:对于给定的样本集,,,是确定的,所以最小化结构风险,等价于最小化,即最小化。 所以,最小化结构风险等价于最小化模型参数的范数,即,模型参数的正则化。