大纲
Noise and Probabilistic Target
以前的VC Bound在没有noise的条件下是成立的,但如果引入noise,是否还依旧成立?
Probabilistic Marbles
接下来我们看在引入noise之后的情况
就像以前的抽球的例子,如果数据没有noise,我们称为确定性颜色的球,,如果数据有noise,那么球的颜色就是不确定的啦。我们可以用概率分布来表示球的颜色 p(y/x) ,我们称之为Target distribution
数学证明,只要满足上图的条件,VC Bound是成立的,这就使得我们机器学习问题在有noise的条件下的也是可以学习的。
Target distribution
可以这样理解目标分步
- 可以理解为 ideal mini-target 和noise,当 p(∘/x)=0.7,p(⋆/x)=0.3 ,那么ideal mini-target f(x)=∘ ,noise level就是0.3
- 以前确定性的目标函数
f
,也可以理解为一种特殊情况下的Target distribution
所以机器学习流程图可以更新如下
Error Measure
在把learning的工作交给机器的时候,必须让机器明白你学习的目标,譬如你想让什么什么最大化,或者什么什么最小化。通常的做法是把每一个预测值与真实值之间的误差(error)看成一种成本,机器要做的,就是在 H 中,挑选一个能使总成本最低的函数。
point wise error
下图是在训练数据和包外数据上的point wise error
point wise error是机器学习中最常用也是最简单的一种错误衡量方式,未来课程中,我们主要考虑这种方式。point wise error一般可以分成两类:0/1 error和squared error。0/1 error通常用在分类(classification)问题上,而squared error通常用在回归(regression)问题上。
Ideal Mini-Target
ideal mini-target
引入了Error Measure后,我们就可以指导演算法挑选更好的
g
,使得g和目标函数
Algorithmic Error Measure
机器学习演算法A的cost function error估计有多种方法,真实的err一般难以计算,常用的方法可以采用plausible或者friendly,根据具体情况而定。
引入algorithm error measure之后,学习流程图如下:
总结一下,先根据问题的不同选择合适的误差衡量方式,0/1 error还是squared error或者是其他针对某一场景特殊设计的error?把 h 作用于 D 中所有点的error加总起来就成了一个cost function,也就是 Ein(h) ,接着要设计一个最优化算法 A ,它能够从 H 中挑选出能够使 Ein(h) 最小的方程 g ,learning就完成了。对于不同类型的cost function,通常会使用不同的最优化算法。对于某些cost function,很容易实现 Ein(h) 最小,比如之后会说的线性回归。对于某些cost function,寻找最小的 Ein(h) 是困难的,回忆之前说的PLA,用0/1 error来衡量误差,要minimize Ein(h) 就是个NP Hard问题。