1、对每个特征,有两种特征值:“是”与“否”,数学上,0与1。对特征进行划分,实质上是对特征值进行划分。在这个特征下,属于“是”的到一边,属于“否”的到另一边。
2、如果在该数据集下,所有样本的类别都是一样的,则划分停止。
3、每次划分,会产生两个子数据集 。信息增益是子数据集熵的加权平均与母数据集的熵之差。
4、如何从不熟悉的数据集中提炼出“是否”的问答规则。决策树的核心。
5、熵(entropy)衡量事物的混乱程度。事物越有序,熵越低;越无序,熵越高。可以将划分前的数据集理解为无序的状态,为了使得信息增益最大,则划分后的数据集应该是越有序越好。其差值自然越大。