一、机器学习绪论
1.机器学习的定义
广义:任何计算机程序通过经验来提高某任务处理性能的行为。
一般:对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。
2.学习问题的三个特征
任务的种类;衡量任务提高的标准;经验的来源。
3.机器学习系统的模块
总体来看,系统设计就是产生执行系统、鉴定器、泛化器和实验生成器的特定实例。很多机器学习系统通常可以用这四个通用模块来刻画。
4.机器学习的搜索观点
在机器学习方面,一个有效的观点是机器学习问题经常归结于搜索问题,即对非常大的假设空间进行搜索,以确定最佳拟合观察到的数据和学习器已有知识的假设。
5.机器学习的中心问题
从特殊的训练样例中归纳出一般函数是机器学习的中心问题。
6.概念学习定义
概念学习是指从有关某个布尔函数的输入输出训练样例中,推断出该布尔函数。
7.归纳学习假设
归纳学习假设任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。
8.归纳偏置
将归纳推理系统看作是包含了归纳偏置,好处在于它提供了一种非程序化的描述手段,以描述学习器从观察到的数据中进行泛化的策略。其次它还可以对归纳偏置强度不同的学习器进行比较。偏置强度越大泛化能力越强,即一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。
二、决策树学习
1.决策树表示法
决策树通过把实例从根结点排列(sort)到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性(attribute)的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。这个过程再在以新结点为根的子树上重复。
通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取。
2.ID3算法的过程
基本的ID3算法通过自顶向下构造决策树来进行学习。构造过程是从“哪一个属性将在树的根结点被测试&#x