-
决策树属于归纳法。主要讲了三种算法,分别是CLS、ID3、CART。
-
CLS算法的核心是使样本集T中所有的样本都属于同一类。
-
熵:信息量大小的度量,表示随机变量不确定性的度量。(例如,千年难遇的小概率事件的信息量就比每天发生的事情信息量大)。
-
条件熵H(Y|X)
-
信息增益:g(D,A)=H(D)-H(D|A),表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
-
ID3算法:使用 信息增益度 选择 测试属性。
-决策树的剪枝:
1⃣️计算每个节点的经验熵
2⃣️递归地从树的叶节点上回缩。
3⃣️返回2,直到不能继续为止,得到损失函数最小的子树 -
CART算法:二元划分,由决策树生成和剪枝两部分组成。
-通过选择基尼指数最小的特征和切分点,将数据集分配到两个子节点中。
-剪枝从底端剪到根部,最后通过交叉验证选取最优子树
初学笔记-决策树
最新推荐文章于 2024-03-05 08:22:00 发布