数据挖掘分类算法之决策树(zz)


策树(Decision tree)

   决策树是以实例为基础的归纳学习算法

数据挖掘分类算法之决策树
    它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从 该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。1986年 Quinlan提出了著名的ID3算法。在ID3算法的基础上,1993年Quinlan又提出了C4.5算法。为了适应处理大规模数据集的需要,后来又 提出了若干改进的算法,其中SLIQ(super-vised learning in quest)和SPRINT (scalable parallelizableinduction of decision trees)是比较有代表性的两个算法。
    (1) ID3算法
    ID3算法的核心是:在决策树各级结点上选择属性时,用信息增益(information gain)作为属性的选择标准,以使得在每一个非叶结点进行测试时,能获得关于被测试记录最大的类别信息。其具体方法是:检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。
    某属性的信息增益按下列方法计算。通过计算每个属性的信息增益,并比较它们的大小,就不难获得具有最大信息增益的属性。
    设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,…,m)。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:
    其中pi=si/s是任意样本属于Ci的概率。注意,对数函数以2为底,其原因是信息用二进制编码。
    设属性A具有v个不同值{a1,a2,……,av}。可以用属性A将S划分为v个子集{S1,S2,……,Sv},其中Sj中的样本在属性A上具有相同的值aj(j=1,2,……,v)。设sij是子集Sj中类Ci的样本数。由A划分成子集的熵或信息期望由下式给出:
    熵值越小,子集划分的纯度越高。对于给定的子集Sj,其信息期望为
    其中pij=sij/sj 是Sj中样本属于Ci的概率。在属性A上分枝将获得的信息增益是
    Gain(A)= I(s1, s2, …,sm)-E(A)
    ID3算法的优点是:算法的理论清晰,方法简单,学习能力较强。其缺点是:只对比较小的数据集有效,且对噪声比较敏感,当训练数据集加大时,决策树可能会随之改变。
    (2) C4.5算法
    C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
    1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
    2) 在树构造过程中进行剪枝;
    3) 能够完成对连续属性的离散化处理;
    4) 能够对不完整数据进行处理。
    C4.5算法与其它分类算法如统计方法、神经网络等比较起来有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集 进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
    (3) SLIQ算法
    SLIQ算法对C4.5决策树分类算法的实现方法进行了改进,在决策树的构造过程中采用了“预排序”和“广度优先策略”两种技术。
    1)预排序。对于连续属性在每个内部结点寻找其最优分裂标准时,都需要对训练集按照该属性的取值进行排序,而排序是很浪费时间的操作。为此,SLIQ算法 采用了预排序技术。所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。具体实 现时,需要为训练数据集的每个属性创建一个属性列表,为类别属性创建一个类别列表。
    2)广度优先策略。在C4.5算法中,树的构造是按照深度优先策略完成的,需要对每个属性列表在每个结点处都进行一遍扫描,费时很多,为此,SLIQ采用 广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。
    SLIQ算法由于采用了上述两种技术,使得该算法能够处理比C4.5大得多的训练集,在一定范围内具有良好的随记录个数和属性个数增长的可伸缩性。
    然而它仍然存在如下缺点:
    1)由于需要将类别列表存放于内存,而类别列表的元组数与训练集的元组数是相同的,这就一定程度上限制了可以处理的数据集的大小。
    2)由于采用了预排序技术,而排序算法的复杂度本身并不是与记录个数成线性关系,因此,使得SLIQ算法不可能达到随记录数目增长的线性可伸缩性。

    (4)SPRINT算法
    为了减少驻留于内存的数据量,SPRINT算法进一步改进了决策树算法的数据结构,去掉了在SLIQ中需要驻留于内存的类别列表,将它的类别列合并到每个 属性列表中。这样,在遍历每个属性列表寻找当前结点的最优分裂标准时,不必参照其他信息,将对结点的分裂表现在对属性列表的分裂,即将每个属性列表分成两 个,分别存放属于各个结点的记录。
    SPRINT算法的优点是在寻找每个结点的最优分裂标准时变得更简单。其缺点是对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分 裂时用哈希表记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈希表,其他属性列表的分裂只需参照该哈希表即可。由于哈希表的大小与训练集的大小成 正比,当训练集很大时,哈希表可能无法在内存容纳,此时分裂只能分批执行,这使得SPRINT算法的可伸缩性仍然不是很好。

 

C4.5算法

一.背景

最早的决策时算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时系统的熵最小,从而提高算法的运算速度和精确度。ID3算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。C4.5是ID3算法的改进算法,不仅可以处理离散型描述属性,还能处理连续性描述属性。C4.5采用了信息增益比作为选择分枝属性的标准,弥补了ID3算法的不足。

决策树算法的优点如下:(1)分类精度高;(2)成的模式简单;(3)对噪声数据有很好的健壮性。因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。

二.C4.5改进的具体方面

1.ID3算法存在的缺点

(1)ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。

(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。

2. C4.5算法做出的改进

(1)用信息增益率来选择属性

克服了用信息增益来选择属性时偏向选择值多的属性的不足。信息增益率定义为:

 

其中Gain(S,A)与ID3算法中的信息增益相同,而分裂信息SplitInfo(S,A)代表了按照属性A分裂样本集S的广度和均匀性。

 

其中,S1到Sc是c个不同值的属性A分割S而形成的c个样本子集。

如按照属性A把S集(含30个用例)分成了10个用例和20个用例两个集合

则SplitInfo(S,A)=-1/3*log(1/3)-2/3*log(2/3)

(2)可以处理连续数值型属性

C4.5既可以处理离散型描述属性,也可以处理连续性描述属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同,按照该属性本身的取值个数进行计算;对于某个连续性描述属性Ac,假设在某个结点上的数据集的样本数量为total,C4.5将作以下处理。

l  将该结点上的所有数据样本按照连续型描述属性的具体数值,由小到大进行排序,得到属性值的取值序列{A1c,A2c,……Atotalc}。

l  在取值序列中生成total-1个分割点。第i(0<i<total)个分割点的取值设置为Vi=(Aic+A(i+1)c)/2,它可以将该节点上的数据集划分为两个子集。

l  从total-1个分割点中选择最佳分割点。对于每一个分割点划分数据集的方式,C4.5计算它的信息增益比,并且从中选择信息增益比最大的分割点来划分数据集。

(3)采用了一种后剪枝方法

避免树的高度无节制的增长,避免过度拟合数据,

该方法使用训练样本集本身来估计剪枝前后的误差,从而决定是否真正剪枝。方法中使用的公式如下:

 

其中N是实例的数量,f=E/N为观察到的误差率(其中E为N个实例中分类错误的个数),q为真实的误差率,c为置信度(C4.5算法的一个输入参数,默认值为0.25),z为对应于置信度c的标准差,其值可根据c的设定值通过查正态分布表得到。通过该公式即可计算出真实误差率q的一个置信度上限,用此上限为该节点误差率e做一个悲观的估计:

 

通过判断剪枝前后e的大小,从而决定是否需要剪枝。

(4)对于缺失值的处理

在某些情况下,可供使用的数据可能缺少某些属性的值。假如〈x,c(x)〉是样本集S中的一个训练实例,但是其属性A的值A(x)未知。处理缺少属性值的一种策略是赋给它结点n所对应的训练实例中该属性的最常见值;另外一种更复杂的策略是为A的每个可能值赋予一个概率。例如,给定一个布尔属性A,如果结点n包含6个已知A=1和4个A=0的实例,那么A(x)=1的概率是0.6,而A(x)=0的概率是0.4。于是,实例x的60%被分配到A=1的分支,40%被分配到另一个分支。这些片断样例(fractional examples)的目的是计算信息增益,另外,如果有第二个缺少值的属性必须被测试,这些样例可以在后继的树分支中被进一步细分。C4.5就是使用这种方法处理缺少的属性值。

3.  C4.5算法的优缺点

优点:产生的分类规则易于理解,准确率较高。

缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

三.C4.5算法源代码(C++)

// C4.5_test.cpp : Defines the entry point for the console application.
//
#include "stdafx.h"
#include <stdio.h>
#include <math.h>
#include "malloc.h"
#include <stdlib.h>
const  int  MAX = 10;
int ** iInput;
int  i = 0; //列数
int  j = 0; //行数
void  build_tree( FILE  *fp, int * iSamples, int * iAttribute, int  ilevel); //输出规则
int  choose_attribute( int * iSamples, int * iAttribute); //通过计算信息增益率选出test_attribute
double  info( double  dTrue, double  dFalse); //计算期望信息
double  entropy( double  dTrue, double  dFalse, double  dAll); //求熵
double  splitinfo( int * list, double  dAll);
int  check_samples( int  *iSamples); //检查samples是否都在同一个类里
int  check_ordinary( int  *iSamples); //检查最普通的类
int  check_attribute_null( int  *iAttribute); //检查attribute是否为空
void  get_attributes( int  *iSamples, int  *iAttributeValue, int  iAttribute);
int  _tmain( int  argc, _TCHAR* argv[])
{
  FILE  *fp;
  FILE  *fp1;
  char  iGet;
  int  a = 0;
  int  b = 0; //a,b是循环变量
  int * iSamples;
  int * iAttribute;
  fp = fopen ( "c:\\input.txt" , "r" );
  if  (NULL == fp)
  {
   printf ( "error\n" );
   return  0;
  }
  iGet = getc (fp);
  
  while  (( '\n'  != iGet)&&(EOF != iGet))
  {
   if  ( ','  == iGet)
   {
    i++;
   }
   iGet = getc (fp);
  }
  i++;
  
  iAttribute = ( int  *) malloc ( sizeof ( int )*i);
  for  ( int  k = 0; k<i; k++)
  {
   iAttribute[k] = ( int ) malloc ( sizeof ( int ));
   iAttribute[k] = 1;
  }
  while  (EOF != iGet)
  {
   if  ( '\n'  == iGet)
   {
    j++;
   }
   iGet = getc (fp);
  }
  j++;
  
  iInput = ( int  **) malloc ( sizeof ( int *)*j);
  iSamples = ( int  *) malloc ( sizeof ( int )*j);
  for  (a = 0;a < j;a++)
  {
   iInput[a] = ( int  *) malloc ( sizeof ( int )*i);
   iSamples[a] = ( int ) malloc ( sizeof ( int ));
   iSamples[a] = a;
  }
  a = 0;
  fclose (fp);
  fp= fopen ( "c:\\input.txt" , "r" );
  iGet = getc (fp);
  while (EOF != iGet)
  {
   if  (( ','  != iGet)&&( '\n'  != iGet))
   {
    iInput[a][b] = iGet - 48;
    b++;
   }
   if  (b == i)
   {
    a++;
    b = 0;
   }
   iGet = getc (fp);
  }
  
  fp1 = fopen ( "d:\\output.txt" , "w" );
  build_tree(fp1,iSamples,iAttribute,0);
  fclose (fp);
  return  0;
}
 
void  build_tree( FILE  * fp, int * iSamples, int * iAttribute, int  level) //
{
  int  iTest_Attribute = 0;
  int  iAttributeValue[MAX];
  int  k = 0;
  int  l = 0;
  int  m = 0;
  int  *iSamples1;
  for  (k = 0; k<MAX; k++)
  {
   iAttributeValue[k] = -1;
  }
  if  (0 == check_samples(iSamples))
  {
   fprintf (fp, "result: %d\n" ,iInput[iSamples[0]][i-1]);
   return ;
  }
  if  (1 == check_attribute_null(iAttribute))
  {
   fprintf (fp, "result: %d\n" ,check_ordinary(iSamples));
   return ;
  }
  iTest_Attribute = choose_attribute(iSamples,iAttribute);
  iAttribute[iTest_Attribute] = -1;
  get_attributes(iSamples,iAttributeValue,iTest_Attribute);
  k = 0;
  while  ((-1 != iAttributeValue[k])&&(k < MAX))
  {
   l = 0;
   m = 0;
   while  ((-1 != iSamples[l])&&(l < j))
   {
    if  (iInput[iSamples[l]][iTest_Attribute] == iAttributeValue[k])
    {
     m++;
    }
    l++;
   }
   iSamples1 = ( int  *) malloc ( sizeof ( int )*(m+1));
   l = 0;
   m = 0;
   while  ((-1 != iSamples[l])&&(l < j))
   {
    if  (iInput[iSamples[l]][iTest_Attribute] == iAttributeValue[k])
    {
     iSamples1[m] = iSamples[l];
     m++;
    }
    l++;
   }
   iSamples1[m] = -1;
   if  (-1 == iSamples1[0])
   {
    fprintf (fp, "result: %d\n" ,check_ordinary(iSamples));
    return ;
   }
   fprintf (fp, "level%d: %d = %d\n" ,level,iTest_Attribute,iAttributeValue[k]);
   build_tree(fp,iSamples1,iAttribute,level+1);
   k++;
  }
}
int  choose_attribute( int * iSamples, int * iAttribute)
{
  int  iTestAttribute = -1;
  int  k = 0;
  int  l = 0;
  int  m = 0;
  int  n = 0;
  int  iTrue = 0;
  int  iFalse = 0;
  int  iTrue1 = 0;
  int  iFalse1 = 0;
  int  iDepart[MAX];
  int  iRecord[MAX];
  double  dEntropy = 0.0;
  double  dGainratio = 0.0;
  double  test = 0.0;
  
  for  (k = 0;k<MAX;k++)
  {
   iDepart[k] = -1;
   iRecord[k] = 0;
  }
  k = 0;
  while  ((l!=2)&&(k<(i - 1)))
  {
   if  (iAttribute[k] == -1)
   {
    l++;
   }
   k++;
  }
  if  (l == 1)
  {
   for  (k = 0;k<(k-1);k++)
   {
    if  (iAttribute[k] == -1)
    {
     return  iAttribute[k];
    }
   }
  }
  for  (k = 0;k < (i-1);k++)
  {
   l = 0;
   iTrue = 0;
   iFalse = 0;
   if  (iAttribute[k] != -1)
   {
    while  ((-1 != iSamples[l])&&(l < j))
    {
     if  (0 == iInput[iSamples[l]][i-1])
     {
      iFalse++;
     }
     if  (1 == iInput[iSamples[l]][i-1])
     {
      iTrue++;
     }
     l++;   
    }
    for  (n = 0;n<l;n++) //计算该属性有多少不同的值并记录
    {
     m = 0;
     while ((iDepart[m]!=-1)&&(m!=MAX))
     {
      if  (iInput[iSamples[n]][iAttribute[k]] == iDepart[m])
      {
       break ;
      }
      m++;
     }
     if  (-1 == iDepart[m])
     {
      iDepart[m] = iInput[iSamples[n]][iAttribute[k]];
     }
    }
    while  ((iDepart[m] != -1)&&(m!=MAX))
    {
     for  (n = 0;n<l;n++)
     {
      if  (iInput[iSamples[n]][iAttribute[k]] == iDepart[m])
      {
       if  (1 == iInput[iSamples[n]][i-1])
       {
        iTrue1++;
       }
       if  (0 == iInput[iSamples[n]][i-1])
       {
        iFalse1++;
       }
       iRecord[m]++;
      }
     }
     
     dEntropy += entropy(( double )iTrue1,( double )iFalse1,( double )l);
     iTrue1 = 0;
     iFalse1 = 0;
     m++;
    }
    double  dSplitinfo = splitinfo(iRecord,( double )l);
    if  (-1 == iTestAttribute)
    {
     iTestAttribute = k;
     dGainratio = (info(( double )iTrue,( double )iFalse)-dEntropy)/dSplitinfo;
    }
    else
    {
     test = (info(( double )iTrue,( double )iFalse)-dEntropy)/dSplitinfo;
     if  (dGainratio < test)
     {
      iTestAttribute = k;
      dGainratio = test;
     }
    }
   }
  }
  return  iTestAttribute;
}
double  info( double  dTrue, double  dFalse)
{
  double  dInfo = 0.0;
  dInfo = ((dTrue/(dTrue+dFalse))*( log (dTrue/(dTrue+dFalse))/ log (2.0))+(dFalse/(dTrue+dFalse))*( log (dFalse/(dTrue+dFalse))/ log (2.0)))*(-1);
  return  dInfo;
}
double  entropy( double  dTrue, double  dFalse, double  dAll)
{
  double  dEntropy = 0.0;
  dEntropy = (dTrue + dFalse)*info(dTrue,dFalse)/dAll;
  return  dEntropy;
}
double  splitinfo( int * list, double  dAll)
{
  int  k = 0;
  double  dSplitinfo = 0.0;
  while  (0!=list[k])
  {
   dSplitinfo -= (( double )list[k]/( double )dAll)*( log (( double )list[k]/( double )dAll));
   k++;
  }
  return  dSplitinfo;
}
int  check_samples( int  *iSamples)
{
  int  k = 0;
  int  b = 0;
  while  ((-1 != iSamples[k])&&(k < j-1))
  {
   if  (iInput[k][i-1] != iInput[k+1][i-1])
   {
    b = 1;
    break ;
   }
   k++;
  }
  return  b;
}
int  check_ordinary( int  *iSamples)
{
  int  k = 0;
  int  iTrue = 0;
  int  iFalse = 0;
  while  ((-1 != iSamples[k])&&(k < i))
  {
   if  (0 == iInput[iSamples[k]][i-1])
   {
    iFalse++;
   }
   else
   {
    iTrue++;
   }
   k++;
  }
  if  (iTrue >= iFalse)
  {
   return  1;
  }
  else
  {
   return  0;
  }
}
int  check_attribute_null( int  *iAttribute)
{
  int  k = 0;
  while  (k < (i-1))
  {
   if  (-1 != iAttribute[k])
   {
    return  0;
   }
   k++;
  }
  return  1;
}
void  get_attributes( int  *iSamples, int  *iAttributeValue, int  iAttribute)
{
  int  k = 0;
  int  l = 0;
  while  ((-1 != iSamples[k])&&(k < j))
  {
   l = 0;
   while  (-1 != iAttributeValue[l])
   {
    if  (iInput[iSamples[k]][iAttribute] == iAttributeValue[l])
    {
     break ;
    }
    l++;
   }
   if  (-1 == iAttributeValue[l])
   {
    iAttributeValue[l] = iInput[iSamples[k]][iAttribute];
   }
   k++;
  }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值