引言
在这篇文章中,我主要介绍一下关于信息增益,并比较ID3、C4.5、C5.0以及CART算法之间的不同,并给出一些细节的实现。最后,我用scikit-learn的决策树拟合了Iris数据集,并生成了最后的决策树图片
信息增益(information gain (IG))
在介绍信息增益之前,我想先介绍3种不纯度的度量手段,它们分别是 Gini index(IG)、entropy(IH)、classification error(IE)
下面,我先介绍熵(entropy)的定义如下:
 
  IH(P)=−∑i=1npi×log(pi)  
 
 
 
- P:给定样本下的概率分布P=(p1,p2,p3,…,pn)
假设我们的样本S中只有一个类别,因此我们的概率分布 P=(p1=1),根据上面的熵公式,我们可以求出IH(P)=1∗log(1)=0 ;假设我们的样本S中只有两个相等数量的类别并服从均匀分布,因此我们的概率分布 P=(p1=0.5,p2=0.5),根据上面的熵公式,我

 
                   
                   
                   
                   本文介绍了信息增益、ID3、C4.5、C5.0和CART决策树算法,并通过scikit-learn在Iris数据集上的应用展示其工作原理。C4.5解决了ID3处理连续值和缺失值的问题,C5.0进行了优化,CART则支持回归任务。
本文介绍了信息增益、ID3、C4.5、C5.0和CART决策树算法,并通过scikit-learn在Iris数据集上的应用展示其工作原理。C4.5解决了ID3处理连续值和缺失值的问题,C5.0进行了优化,CART则支持回归任务。
           最低0.47元/天 解锁文章
最低0.47元/天 解锁文章
                           
                       
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
              
             
                   838
					838
					
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
            


 
            