机器学习的目的是依据观测数据(分析数据) 实现对系统输入和输出之间变量关系函数
的估计,并基于此函数模型实现对未知数据或者无法观测数据(含定性)的预测分析。其中变量关系函数的最优化问题是模型性能的决定因素之一,假设数据对
服从联合概率分布
,模型损失函数为
,则函数优化问题等价于期望风险
最小化问题:
(1)
1. 经验风险最小化原则(ERM)
由于实际分析过程中可利用的信息只有有限个样本,且无法建立联合概率密度,因此无法直接计算期望风险,故传统的学习方法中一般利用经验风险来代替期望风险,即使用算术平均代替数学期望:
(2)
通过求解经验风险的最小值来逼近真实期望风险最小值的方法称为经验风险最小化(Emperical Risk Minimization, ERM)。但是基于经验风险最小化准则的模型在实际应用过程中存在学习精度和预测精度不一致问题,并且支持向量机的提出者Vapnik指出,经验风险最小值并不一定收敛于真实风险最小值。针对二分类问题,经验风险和实际风险
之间以至少
的概率满足如下关系:
(3)
式中 l 表示训练样本数,h 表示函数集的VC维。式 (3) 可表示为:
(4)
由式(4)可知,机器学习的实际风险由两部分组成:一部分是经验分析(训练误差),另一部分是置信范围 ,置信范围大小与关系函数的复杂性及训练样本数有关,是函数集VC维h和训练集样本数
的函数,对于估计样本数据集,其值随 h 增大而增大,直接反映了真实风险和经验风险差值的上确界。
可以清楚地看到,对于一个特定问题,其样本数 是固定的,此时,如果学习函数集VC维越高,则其置信范围
越大,导致真实风险和经验风险之间的差值越大,即产生了过拟合现象;如果采用简单的学习机(VC维较小),则置信范围较小,但是经验风险很大,这就产生了欠学习问题。
2,结构风险最小化原则
结构风险最小化原则(Structural Risk Minimization, SRM)将预测函数集分为多个函数嵌套的子集序列:
(5)
所有的子集按照各自VC维的大小顺序排序,即:
(6)
在这个序列中来自同一子集的置信范围相同,在每一个子集中寻找经验风险的最小值,找出最小经验风险与对应的置信范围之和最小的一个子集,在这个子集中使用经验风险最小的函数即为所求的最优函数,这种通过函数集结构划分实现期望风险最小化的方法称为SRM准则。
实现结构风险最小化的两种方法:
1.选择适当模型结构的函数子集,使该子集中的函数置信范围保持固定值,然后在这个函数集中选择一个经验风险最小化的函数;
2.保持函数集的经验风险固定,然后在其中选择置信范围最小的函数。
写于2020-4-27晚11点
加油。