归纳偏好、PAC和NFL定理
归纳偏好
机器学习的算法在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias)。这种归纳偏好在样本数据集非均衡时可以得到明显的体现。例如GC数据集(German Credit Dataset)中,违约人数明显少于非违约人数。为了能使算法对于违约情况有很好的识别效果,用于训练的算法必然会带有一定的偏向性。
任何一个有效的机器学习理论必然存在归纳偏好,这种归纳偏好可以视为一个学习算法对于假设选择的价值观念。对于自然科学,这种偏好通常是奥卡姆剃刀(Occam’s razor) 原则。对于奥卡姆剃刀原则,可用一句话加以概括为——“若非必要、勿增实体”。即如果有多个假设与观察所得到的结果一致,那么选择最简单的那一个。
值得注意的是,哪一个假设简单这个问题并不简单。
因此,为了使某个算法在某一个特定的数据集中对应特定的问题发挥出比较好的性能,关键在于使该算法的归纳偏好与该数据集的特征相匹配。
PAC(Probably Approximately Correct)
从PAC的英文直译可以看出,它所指的是概率近似正确。即,以很高的概率得到很好的一个模型。
其数学表达式可写为:
P
(
∣
f
(
x
)
−
y
∣
≤
ϵ
)
≥
1
−
δ
\mathrm {P}(|\mathcal{f}(x)-y|\le \epsilon) \ge 1-\delta
P(∣f(x)−y∣≤ϵ)≥1−δ
其中
x
x
x为样本,
y
y
y为样本对应的真相。那么左侧的概率可以理解为,样本通过算法
f
(
⋅
)
f(\cdot)
f(⋅)所得到的结果
f
(
x
)
f(x)
f(x)与真相
y
y
y的误差小于一个极小量
ϵ
\epsilon
ϵ的概率。那么不等式说明,这个概率它是大于
1
−
δ
1-\delta
1−δ的。因此,如果
1
−
δ
1-\delta
1−δ比较大,使用机器学习对问题进行分析才是有意义的。
例如,对于一个二分类问题,判断一个苹果是好是坏。如果该问题 1 − δ = 0.5 1-\delta=0.5 1−δ=0.5,那么对于该问题,算法所得到的结果与真相的误差小于极小量的概率是大于等于0.5。使用机器学习算法进行求解完全没有意义。
NFL定理
对于一个学习算法 ℘ a \wp_a ℘a,如果它在某一些问题上比学习算法 ℘ b \wp_b ℘b好,则必然存在另外一些问题,在那些问题中, ℘ b \wp_b ℘b优于 ℘ a \wp_a ℘a。这就是NFL(No Free Lunch Theorem)定理,详细推导过程见文末参考文献。
NFL定理表明:算法的优劣只有根据具体的数据集进行评价才有意义,空泛谈论某一个算法优于另一个算法是极其荒谬的。
而对于NFL定理有一个极为重要的前提:所有“问题”出现的机会相等、或者说所有的问题同等重要。
参考文献:
[1] Wolpert, David H., and William G. Macready. No free lunch theorems for search. Vol. 10. No. 12. Technical Report SFI-TR-95-02-010, Santa Fe Institute, 1995.