信息熵和Gini指数 信息熵 用于衡量不确定性 条件熵 信息增益 表达成熵和条件熵的差,代表在一定条件下,信息不确定性减少的程度 决策树的构建目标:找到令信息增益最大的路径 eg. Gini(基尼)指数 又叫基尼不纯度,表示在样本集合中,一个随机选中的样本被分错的概率。 回归树 一些概念: 解决回归问题的决策树,预测值一般是叶子节点的均值回归树的分支标准:标准方差Coefficient of Variation(CV)变化系数,用于决定是否进一步分支 分支停止条件: 当某个分支的变化系数小于某个值当前节点包含元素个数小于某个值