项目: 按照 某种参数(Gini) 去递归 某种规则(建立子节点) 而我们要做的就是知道参数在怎么求, 掌握XX规则.
笔记整理时间:2018.10-11周四
一.算法
1.原理,应用
基本思想:取净现值的期望大于零的概率,评价项目风险,判断其可行性的决策分析方法。在机器学习中是一个预测模型。
Entropy=系统的凌乱程度, 使用算法ID3,C4.5和C5.0生成树算法熵. 这一度量是基于信息学理论中熵的概念.
说明: 决策树是一种树形结构, 其中每个内部节点表示有一个属性上的测试, 每个分支代表一个测试输出, 每个叶节点代表一种类别. asdfadsf
前提条件: 已知各种情况发生的概率
基本原理: 构造决策树的核心问题是在每一步如何选择适当的属性对样本进拆分. 对一个分类问题, 从已知类标记的训练样本中学习并构造出决策树是一个自上而下分而治之的过程.
ID3算法: 用信息增益来选择特征, 递归构建决策树. (具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归调用以上方法,构建决策树。)
C4.5算法: 是对ID3算法的改进, 改进为: 1. 用信心增益比选择属性. 2. 构造过程中对树进行剪枝. 3. 对非离散数据也能处理. 4. 能够处理不完整数据
CART : 改进为: 1. 用Gini来选择属性
常用的决策树算法如图所示:
一些公式, 名词: 熵, 信息增益, 信息增益率, 基尼系数
信息增益: 表
可以解决什么问题?
优势: 适合做多分类问题, 训练和预测速度很快; 可以处理数据集中有大比例缺失的数据, 仍能保持精度;
比较: ID3的缺点: 1. 选择属性时偏向于选择分枝比较多的属性值, 即取值多的属性 2. 不能处理连续属性 3. 只有树的生成, 容易产生