决策树算法-属于分类算法
是利用训练样本集获得分类函数即分类模型(分类器)。从而实际讲数据集中的样本划分倒各个类中。分类模型通过学习训练样本中的属性集与类别之间的潜在关系,并一次为依据对新样本属于哪一类进行预测
决策树通过把数据样本分配倒某个叶子节点确定数据集中样本所属的分类中,
决策树有决策点,分支和叶子节点组成
- 决策树节点表示在样本的一个属性上进行的划分
- 分支表示对于决策节点进行划分的输出
- 叶节点代表经过分支到达的类
从决策树根节点出发,自顶向下移动,在每个决策节点都会进行次划分,通过划分的结果讲样本进行分类,导致不同的分支,最后到达叶子节点,这个过程就是利用决策树进行分类的过程
决策树中主要就是决定那个特征值作为根节点,确定有几个树值
这里介绍关于决策树中几种常见的算法:
ID3算法:
–在每个节点处选取能获得最高信息增益的分支属性进行分裂
在每个决策结点处划分分支,选取分支属性的目的是为了整个决策树的样本纯度提升
衡量样本集合纯度的指标是:熵
[信息增益:在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息增益并不是。就比如信息增益不是对称的,从P到Q的信息增益