斯坦福机器学习课程之经验风险最小化,学习心得。
- bias-variance trade-off(偏差-方差权衡)
欠拟合underfitting,偏差高过拟合overfitting,方差高训练误差e:在样本集中,错误分类训练样本所占的比例。训练误差也成为 风险。经验风险最小化(empirical risk minimization, ERM),就是找到使训练误差e取最小值时的参数(θ)。根据logistic regression和SVM的算法介绍,它们可看作经验风险最小化的近似。
换一种思路:定义假设类(hypothesis class)H,是所有假设的集合,即,是所有线性分类器构成的集合,你的算法将会从集合中选取一个假设作为目标。因此,更新ERM的定义,即,在集合H中选取一个函数h,使训练误差e最小。
泛化误差(generalization error)而我们真正关心的是算法在没见过的那些数据上的误差,因此,我们真正关心的是泛化误差ε(h)
Hoeffding不等式
它给出了一个估计伯努利随机变量均值时,犯错误概率的上界。关于这个上界,它会随着m的增长指数下降,对于给定的γ,当增加训练集合的规模时,高斯函数会变得越来越瘦,它会随着m指数的增长的倒数收缩。
以logistic regression为例介绍ERM的性质有限假设类的情形令H={h1,h2,…,hk}为一个包含k个假设的假设类(函数),那么ERM算法会选择训练误差最小的那个函数。