-C4.5(分类)
C4.5算法详解(非常仔细)_张张的专栏-CSDN博客_c4.5算法
-
信息熵:某件事情发生的不确定性度,-plog2(p),信息熵越大,不确定性越大
-
类别信息熵:类别信息熵表示的是所有样本中各种类别出现的不确定性之和,公式:label_info = -p1log2(p1)-p2log2(p2)-p3log2(p3),(p1+p2+p3=1)
-
属性信息熵:每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下,各种类别出现的不确定性之和。属性的信息熵越大,表示这个属性中拥有的样本类别越不“纯”。公示:p1*label_info_onp1 + p2*label_info_onp2,p1、p2表示其中一个属性两种情况概率,label_info_onp1、label_info_onp2分别表示两种情况的条件下各自的类别信息熵。例子:
-k-Means(聚类)
讲得非常好:K-Means聚类算法原理 - 刘建平Pinard - 博客园