决策树
一颗决策树重要组成部分,分为根节点、非叶子节点,叶子节点,分支。
根节点:第一个节点
非叶子节点(决策点):代表测试的节点,对数据属性的测试
分支:代表测试的条件
叶子节点:代表分类后所获得的分类标记,最后的结果
决策树的构造过程:
构造决策树的过程分为训练阶段和测试阶段;训练阶段需要从给定的训练集数据中构造一颗决策树;测试阶段是将测试数据在构造出的决策树上进行测试。
那重点问题就来了,如果要构造一颗决策树,那决策树中的根节点如何进行确定呢?
衡量标准–熵
熵代表一个物体内部的混乱程度,对应到我们的数据中就是数据的混乱程度,如果数据越纯,混乱程度就越小,熵值越小;如果数据越杂乱,混乱程度就越大,熵值越大。熵值的大小就代表不确定性越大。
熵的公式
pi为i的概率
数据集A={1,1,1,1,1,1,2,2,2,3},出现1的概率是6/10,2的概率是3/10,3的概率是1/10,根据熵的计算公式:
A数据