[ML]一些基本概念
1. 何为机器学习?
-
《机器学习》周志华版给出的解释为:研究在计算机中,从数据中产生“模型 (model)”的算法,即“学习算法” (Learning Algorithm). 也可以说机器学习是研究关于“学习算法”的学问。
-
《机器学习》Tom Mitchell版本给出的公式化解释为: L e a r n i n g = I m p r o v i n g w i t h e x p r i e n c e a t s o m e t a s k s Learning = Improving\ with \ exprience \ at \ some\ tasks Learning=Improving with exprience at some tasks
即在任务T中,根据经验 E 来学习以提升性能度量 P。
2. 归纳 Induction
- 归纳即 从特殊到一般的“泛化”(generalization)过程,从具体实时归纳出一般规律。比如从一组数 2,4,6,8,10中得出规律都是 偶数。这个“规律”也是机器学习的研究内容,这个学习过程称为 归纳学习 Inductive learning
3. 演绎 deduction
- 演绎即 从一般到特殊的“特化”(specialization)过程。
4. 概念学习 Concept Learning
- 狭义的归纳学习要求从训练数据中学得概念,即称为 概念学习。
5. 布尔概念学习 Boolean Concept Learning
- 即 对“是”与“不是”这样的只有 0/1 结果的目标概念的学习。
比如学习根据西瓜的色泽、根蒂、敲声来判断一个西瓜是好瓜还是坏瓜。
6. 假设空间 Hypothesis Space
依然西瓜来假设,其中 符号 “?”表示可以为任意值:
色泽 = {青绿, 乌黑, 浅白,?}
根蒂 = {蜷缩, 硬挺,稍蜷, ?}
敲声 = {浊响, 清脆, 沉闷,?}
再考虑或许根本没有“好瓜”这个概念,我们用 ∅ \emptyset ∅空集来表示。
那么,不同西瓜的类型数有:444+1 = 65种。
那么,包含可能的西瓜类型的集合,我们称之为 假设空间(Hypothesis Space)。
注意:只要包含可能的西瓜类型的集合就可以称为假设空间,不一定非要包含所有可能。
7. 学习看作搜索
书接上例:
我们已经知道了世界上有65种类型的瓜,我们最初的任务是找出其中的好瓜,现在任务变成了从这65种类型中搜索出符合(fit)好瓜条件的类型。
搜索的策略有很多,关于这个问题,请参见第二部分。
8. 版本空间 Version Space
书接上问:
第6问说到一共有65种西瓜类型,假设空间中的一部分类型可能与训练集给出的所有西瓜类型相同,那么这部分类型的集合,我们称之为“版本空间”(Version Space)。
例如,只有一条数据的训练集:{[青绿,蜷缩,浊响]}是好瓜,假设空间的假设为{[青绿,蜷缩,浊响], [乌黑,硬挺,清脆]},那么版本空间就是假设空间的子集:{[青绿,蜷缩,浊响]}
百度百科的解释:概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合
关于版本空间例子的详细解释:西瓜书(周志华):什么是版本空间以及如何求取版本空间
9. 归纳偏好 Inductive Bias
如果版本空间中有多个不同的假设,均与训练集一致,但同样的输入数据可能导致不同的输出结果 0/1。我们如何判断使用哪个假设更好呢?
事实上每个模型都必定有各自的偏好来判断瓜的好坏。这时候,选择哪个模型,就需要看实际的任务需求来决定。