概念
判定树(decision tree)
是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点
熵(entropy)
信息量的度量,等于不确定性的多少
变量的不确定性越大,熵也就越大
公式:
H(X)=−∑xP(x)log2[P(x)]
公式详解:
- 某个概率:
P(x) - 某个概率的对数
log2[P(x)] - 解释:熵等于(((概率与(概率的对数)乘积)的负数)的和)
决策树归纳算法
Gain(A)=Info(D)−InforA(D)
决策树的优点:
- 直观,便于理解
- 小规模数据集有效
决策树的缺点:
- 处理连续变量不好
- 类别较多时,错误增加的比较快
- 可规模性一般