一、决策树
认识:决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法
举例说明:
案例一:
案例二: 如何去划分是否能得到贷款?
案例三:
用信息论讨论,信息的单位是比特
信息熵
开放信息和不开放任何信息,概率不同,得到信息的代价小一些,信息熵就是一种代价
因为信息不能为负,所以计算往往要加负号
“谁是世界杯冠军”的信息量应该比5比特少。
香农指出,它的准确信息量应该是: H = -(p1logp1 + p2logp2 + ... + p32log32)
信息熵大,不确定性大,正比关系
有些决策标准放的越早,不确定性减小的越多,因此,决策树的思想就是判断哪个特征最重要,能最小的减少不确定性即信息熵,同时叫信息增益最大
信息增益
概念:特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为: