http://en.wikipedia.org/wiki/ID3_algorithm
在决策树学习中,ID3(迭代二分法器3)是Ross Quinlan [1]发明的一种算法,用于从数据集中生成决策树。ID3是C4.5算法的前身,通常用于机器学习和自然语言处理领域。
算法
ID3算法从原始集合开始S作为根节点。在算法的每次迭代中,都会遍历集合中每个未使用的属性S并计算出熵H(S)或信息获取IG(S)该属性的。然后,它选择具有最小熵(或最大信息增益)值的属性。套装S然后根据所选属性对数据进行拆分或分区,以生成数据的子集。(例如,可以根据年龄小于50,介于50和100之间以及大于100的总体子集将一个节点划分为子节点。)该算法继续对每个子集进行递归,仅考虑从不考虑属性的情况。之前选择的。
在以下情况之一中,子集上的递归可能会停止:
- 子集中的每个元素都属于同一类;