文章目录
分类算法-决策树
关于机器学习开发流程等知识可见:机器学习 入门详细解析(一)开发流程\sklearn\k近邻算法\朴素贝叶斯算法\交叉验证
认识决策树
-
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法
-
银行贷款数据
-
如何去划分是否能得到贷款?
-
决策树的实际划分
-
信息的度量和作用
-
问:每猜一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军?
答:我可以把球编上号,从1到32,然后提问:冠 军在1-16号吗?依次询问,只需要五次,就可以知道结果。
-
1948年,香农发表了划时代的论文——通信的数学原理,奠定了现代信息论的基础信息的单位:比特。
-
32支球队,log32 = 5 比特 64支球队,log64 = 6 比特
-
信息熵
谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:
H = − ( p 1 ∗ l o g p 1 + p 2 ∗ l o g p 2 + . . . + p 32 l o g 32 ) H = -(p1*logp1 + p2*logp2 + ... + p32log32) H=−(p1∗logp1+p2∗logp2+...+p32log32)
-
H的专业术语称之为信息熵,单位为比特。**
-
公式:
-
当这32支球队夺冠的几率相同时,对应的信息熵等于5比特
-
信息和消除不确定性是相联系的
决策树的划分一句之一:信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:
- 注:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
信息增益的计算
常见决策树使用的算法
-
ID3 信息增益 最大的准则
-
C4.5 信息增益比 最大的准则
-
CART
-
回归树: 平方误差 最小
-
分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的原则
-
sklearn决策树API
class sklearn.tree.DecisionTreeClassifier(criterion=’g