Definition
决策树学习时应用最广的归纳推理算法之一。[1]它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性且能够学习析取表达式。CLS, ID3,C4.5,CART均是决策树学习算法。
[1]归纳学习成立存在一个基本假设:任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。“泛化能力”
决策树学习的归纳偏置是优先选择较小的树。
决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这个树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。然后这个过程在以新结点为根的子树上重复。
表-1为根据天气情况判断是否适合出去玩的数据集。
表-1
|
Outlook |
Temperature |
Humidity |
Windy |
Play |
1 |
sunny |
hot |
high |
FALSE |
no |
2 |
sunny |
hot |
high |
TRUE |
no |
3 |
overcast |
hot |
high |
FALSE |
yes |
4 |
rainy |
mild |
high |
FALSE |
yes |
5 |
rainy |
cool |
normal |
FALSE |
yes |
6 |
rainy |
cool |
normal |
TRUE |
no |
7 |
overcast |
cool |
normal |
TRUE |
yes |
8 |
sunny |
mild |
high |
FALSE |
no |
9 |
sunny |
cool |
normal |
FALSE |
yes |
10 |
rainy |
mild |
normal |
FALSE |
yes |
11 |
sunny |
mild |
normal |
TRUE |
yes |
12 |
overcast |
mild |
high |
TRUE |
yes |
13 |
overcast |
hot |
normal |
FALSE |