决策树
决策树是一种树状结构,它的每一个节点对应着一个分类,非叶节点对应着某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树出决策树是一个自上而下,分而治之的过程。
决策树算法 | 算法描述 |
---|---|
ID3算法 | 其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性 |
C4.5算法 | C4.5生成决策树算法相对于 ID3 算法的重要改进是使用信息增益率来选择节点属性。C4.5 算法可以克服 ID3 算法存在的不足:ID3 算法只适用于离散的描述属性,而 C4.5 算法既能够处理离散的描述属性,也可以处理连续的描述属性 |
CART算法 | CART 决策树是一种十分有效的非参数分类和回归方法,通过构建树、修建树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。 |
实例
实例表格样式
数据下载: sales_data.xls
采用 ID3 算法构建决策树,具体步骤如下:
1)计算总的信息熵,数据总的记录为34,而销售数量为“高”的记录有18,销售数量为“低”的有16。
2)计算各个属性的信息熵。
天气,属性值有“好”和“坏”两种。其中,天气为“好”的情况下,销售数量为“高”的记录为11,销售数量为“低”的记录为6。天气为“坏”的情况下,销售数量为“高”的记录为7,销售数量为“低”的记录为10。
I ( 7 , 10 ) = − 7 17 log 2 ( 7 17 ) − 10 17 log 2 ( 10 17 ) = 0.977418 I(7,10)= -\frac{7}{17}\log_2(\frac{7}{17})-\frac{10}{17}\log_2(\frac{10}{17}) = 0.977418 I(7,10)=−177log2(177)−1710log2(1710)=0.977418
E ( 天 气 ) = 17 34 I ( 11 , 6 ) + 7 10 I ( 7 , 10 ) = 0.957043 E(天气)=\frac{17}{34}I(11,6)+\frac{7}{10}I(7,10) = 0.957043 E(天气)=3417I(11,6)+107I(7,10)=0.957043
是否为周末,当“是”周末的条件下,销售数量为“高”的记录为11,销售数量为“低”的记录为3,当是否为周末属性为“否”时,销售数量为“高”的记录为7,销售数量为“低”的记录为13。
I ( 7 , 13 ) = − 7 20 log 2 ( 7 20 ) − 13 20 log 2 ( 13 20 ) = 0.934068 I(7,13)= -\frac{7}{20}\log_2(\frac{7}{20})-\frac{13}{20}\log_2(\frac{13}{20}) = 0.934068 I(7,13)=−207log2(207)−2013log2(2013)=0.934068
E ( 是 否 周 末 ) = 14 34 I ( 11 , 3 ) + 20 34 I ( 7 , 13 ) = 0.858109 E(是否周末)=\frac{14}{34}I(11,3)+\frac{20}{34}I(7,13) = 0.858109 E(是否周末)=3414I(11,3)+3420I(7,13)=0.858109
是否有促销,当“是”促销的条件下,销售数量为“高”的记录为15,销售数量为“低”的记录为7,当是否为促销属性为“否”时,销售数量为“高”的记录为3,销售数量为“低”的记录为9。
I ( 3 , 9 ) = − 3 12 log 2 ( 3 12 ) − 9 12 log 2 ( 9 12 ) = 0.811278 I(3,9)= -\frac{3}{12}\log_2(\frac{3}{12})-\frac{9}{12}\log_2(\frac{9}{12}) = 0.811278 I(3,9)=−123log2(123)−129log2(129)=0.811278
E ( 是 否 有 促 销 ) = 22 34 I ( 15 , 7 ) + 12 34 I ( 3 , 9 ) = 0.870235 E(是否有促销)=\frac{22}{34}I(15,7)+\frac{12}{34}I(3,9) = 0.870235 E(是否有促销)=3422I(15,7)+3412I(3,9)=0.870235
3)计算天气、是否周末和是否有促销属性的信息增益值。
G a i n ( 是 否 周 末 ) = I ( 18 , 16 ) − E ( 是 否 周 末 ) = 0.139394 Gain(是否周末)=I(18,16)-E(是否周末)=0.139394 Gain(是否周末)=I(18,16)−E(是否周末)=0.139394
G a i n ( 是 否 有 促 销 ) = I ( 18 , 16 ) − E ( 是 否 有 促 销 ) = 0.127268 Gain(是否有促销)=I(18,16)-E(是否有促销)=0.127268 Gain(是否有促销)=I(18,16)−E(是否有促销)=0.127268
4)由第3)步的计算结果可以知道,是否周末属性的信息增益值最大,它的两个属性值“是”和“否”作为该根节点的两个分支。
代码:
#-*- coding: utf-8 -*-
#使用ID3决策树算法预测销量高低
import pandas as pd
#参数初始化
inputfile = '../data/sales_data.xls'
data = pd.read_excel(inputfile, index_col = u'序号') #导入数据
#数据是类别标签,要将它转换为数据
#用1来表示“好”、“是”、“高”这三个属性,用-1来表示“坏”、“否”、“低”
data[data == u'好'] = 1
data[data == u'是'] = 1
data[data == u'高'] = 1
data[data != 1] = -1
x = data.iloc[:,:3].as_matrix().astype(int)
y = data.iloc[:,3].as_matrix().astype(int)
from sklearn.tree import DecisionTreeClassifier as DTC
dtc = DTC(criterion='entropy') #建立决策树模型,基于信息熵
dtc.fit(x, y) #训练模型
#导入相关函数,可视化决策树。
#导出的结果是一个dot文件,需要安装Graphviz才能将它转换为pdf或png等格式。
from sklearn.tree import export_graphviz
x = pd.DataFrame(x)
from sklearn.externals.six import StringIO
label = ['天气', '是否周末', '是否有促销']
x = pd.DataFrame(x, columns=label)
with open("tree.dot", 'w') as f:
f = export_graphviz(dtc, feature_names = x.columns, out_file = f)
效果:
决策树还有其他算法,未完待续