上节课,我们主要介绍了机器学习可以根据元素的不同情况分为不同的类型。其中,监督式学习、非监督式学习、半监督式学习和增强学习。本节课,我们将介绍机器学习的可行性,讨论问题是否可以使用机器学习来解决。
一、Learning is Impossible?
机器学习一定是可行的吗?
- 第一个例子,我们可以找到不同的g(x),它同时满足所有训练样本D;
- 但当有一个新的x输入时,应用不同的g(x),会得到完全相反的y;
- 那么我们认为这个机器学习并没有学习到!?
- 第二个例子,我们找到这样一个g≈f,可以满足所有的训练样本D
- 但是在D以外的未知数据上,g≈f不一定成立。
- 而机器学习目的,恰恰是希望我们选择的模型能在未知数据上的预测与真实结果是一致的,而不是在已知的数据集D上寻求最佳效果。
所以我們想要的是资料以外的部分。 但是这两个例子好像告我们想要的事情是做不到的。我们把这一系列的研究叫做No Free Lunch(没有免费的午餐)。NFL理论告诉我们:
- 不存在一个与具体应用无关的,普遍适用的“最优分类器”
- 学习算法必须要作出一个与问题领域有关的“假设”,分类器必须与问题域相适应。
In the field of optimization, the NFL means that without a prior assumption about the specific problem, no strategy can be expected to perform better than any other.
So, make no efforts on distinguishing better strategies when you know nothing about the dataset. There is no universal optimal strategy.【