ID3 是建立了概念学习系统(CLS)算法
决策树算法的优点如下:
(
1
)分类精度高;
(
2
)成的模式简单;
(
3
)
对噪声数据有很好的健壮性
决策树算法的优点如下:
(
1
)分类精度高;
(
2
)成的模式简单;
(
3
)
对噪声数据有很好的健壮性
决策树算法的优点如下:
(
1
)分类精度高;
(
2
)成的模式简单;
(
3
)
对噪声数据有很好的健壮性
决策树算法的优点如下:(1)分类精度高;(2)成的模式简单;(3)对噪声数据有很好的健壮性最早的决策时算法是由
Hunt
等人于
1966
年提出的
CLS
。当前最有影
响的决策树算法是
Quinlan
于
1986
年提出的
ID3
和
1993
年提出的
C4.5
。
ID3
只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,
其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。
ID3
算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取
值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信
息。
C4.5
是
ID3
算法的改进算法,不仅可以处理离散型描述属性,还能处
理连续性描述属性。
C4.5
采用了信息增益比作为选择分枝属性的标准,弥
补了
ID3
算法的不足。
最早的决策时算法是由
Hunt
等人于
1966
年提出的
CLS
。当前最有影
响的决策树算法是
Quinlan
于
1986
年提出的
ID3
和
1993
年提出的
C4.5
。
ID3
只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,
其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。
ID3
算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取
值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信
息。
C4.5
是
ID3
算法的改进算法,不仅可以处理离散型描述属性,还能处
理连续性描述属性。
C4.5
采用了信息增益比作为选择分枝属性的标准,弥
补了
ID3
算法的不足。
最早的决策时算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。1.选择一个属性放置在根节点,为每个可能的属性值产生一个分支
3.在每个分支上递归地重复这个过程,仅使用真正到达这个分支的样本
(1) 初始化决策树T为只含一个树根(X,Q),其中X是全体样本集,Q为全体属性集。
(5) 选择具有最高信息增益的属性B作为节点(X’,Q’)的测试属性;
{从该节点(X’, Q’)伸出分支,代表测试输出B=bi;
求得X中B值等于bi的子集Xi,并生成相应的叶节点(Xi’,Q’-{B});}
(1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。
(3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次
将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行排序,得到属性值的取值序列{A1c,A2c,……Atotalc}。
在取值序列中生成total-1个分割点。第i(0<i<total)个分割点的取值设置为Vi=(Aic+A(i+1)c)/2,它可以将该节点上的数据集划分为两个子集。
从total-1个分割点中选择最佳分割点。对于每一个分割点划分数据集的方式,C4.5计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。
(3)采用了一种后剪枝方法 避免树的高度无节制的增长,避免过度拟合数据, 该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。
4)对于缺失值的处理
在某些情况下,可供使用的数据可能缺少某些属性的值。假如〈x,c(x)〉是样本集S中的一个训练实例,但是其属性A的值A(x)未知。处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;另外一种更复杂的策略是为A的每个可能值赋予一个概率。例如,给定一个布尔属性A,如果结点n包含6个已知A=1和4个A=0的实例,那么A(x)=1的概率是0.6,而A(x)=0的概率是0.4。于是,实例x的60%被分配到A=1的分支,40%被分配到另一个分支。这些片断样例(fractional examples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。
C4.5就是使用这种方法处理缺少的属性值。
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法的优缺点
优点:产生的分类规则易于理解,准确率较高。
缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行