目录
实例:预测泰坦尼克号乘客信息,目标值其是否能存活survived
决策树概念
相当于编程中的if-then结构,其实就是选择(右侧树的结构)
决策树信息论基础
信息是与消除不确定性相联系的(信息是为了消除不确定性)
-
信息熵
32只球队,二分,只需要猜5次最多,就可以确定
因为32是2的5次方
-
决策树的分类依据之一:信息增益
注:信息增益表示得知特征x的信息使得类Y的信息不确定性减少的程度,举例:得知年龄后对目标值(类别)是否同意贷款,的不确定性减少程度,也就是该项信息对结果的影响程度
此处计算的H(D)为总熵,H(青年)为青年中针对类别项的信息熵
最终分别计算了,年龄、工作、房产、信誉、等信息增益