c4.5
信息熵:
直观解释
信息熵用来衡量信息量的大小
若不确定性越大,则信息量越大,熵越大
若不确定性越小,则信息量越小,熵越小
3 应用
数据挖掘中的决策树。
构建决策树的过程,就是减小信息熵,减小不确定性。从而完整构造决策树模型。
所以我们需要在每一次选择分支属性时,计算这样分类所带来的信息熵的增益,增益越大,不确定性越小,最终也就是我们要选择的分支属性。
首先我们会在未进行任何分类前求取一个信息熵,这个信息熵涉及到只是简单的求取样本标签的分布,然后按照公式求解信息熵。
1)信息增益
信息增益实际上是ID3算法中用来进行属性选择度量的。它选择具有最高信息增益的属性来作为节点N的分裂属性。该属性使结果划分中的元组分类所需信息量最小。对D中的元组分类所需的期望信息为下式:
Info(D)又称为熵。
现在假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:
信息增益定义为原来的信息需求(即仅基于类比例)与新需求(即对A划分之后得到的)之间的差,即
信息增益越大,分类后的信息熵越小,不确定性也越小
ID3算法就是在每次需要分裂时,计算每个属性的增益,然后选择增益最大的属性进行分裂。
具体计算http://blog.csdn.net/baiyangdfish/article/details/7023751
http://wenku.baidu.com/view/8945893dc77da26924c5b000.html
KNN(k-nearest neighbor)
KNN:称为k近邻分类(k-nearest neighbor classification)算法)