频率角度
概率:随机事件发生频率的极限值。
主张:执行参数估计时,参数是确定取值,而数据是随机的。
损失函数:度量模型一次预测的好坏。常用的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
记作:
风险函数(期望损失):度量平均意义下模型预测的好坏。
理解为模型关于联合分布的平均意义下的损失。
学习的目标就是选择最小化期望风险的模型。但是计算期望风险需要用到联合分布,联合分布又未知,所以导致该问题无法解决。
此时就用到了经验风险(经验损失)
理解为模型关于训练样本集的平均损失,根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以很自然的就用经验风险代替了期望风险,也就变成了经验风险最小化的问题。这个问题就转化成了求解模型也即求解采样分布,而从主张来看,由于频率统计将数据看作随机变量,所以计算采样分布是没有问题的,确定下采样分布之后,参数估计就等效于一个最优化问题,最常用的最优化方法最大似然估计。
贝叶斯角度
概率:客观上事件的可信程度,或者主观上主体对事件的信任程度,建立在对事件的已有知识基础上。
主张:执行参数估计时,视参数为随机变量,而数据为确定取值。
贝叶斯定理的数学表达式;
贝叶斯定理的意义在于将先验概率和后验概率关联起来,刻画了数据对于知识和信念的影响。贝叶斯主义在参数估计时使用最大后验概率估计。当样本容量很大的时候,经验风险最小化能保证有很好的学习效果,而当样本容量很小时,经验风险最小化学习容易产生过拟合现象,结构风险最小化是为了防止过拟合而提出来的策略,其等价于正则化。
最大后验概率估计就是结构风险最小化的一个例子。