决策树

最新推荐文章于 2020-05-21 00:16:12 发布

Pg-Man

最新推荐文章于 2020-05-21 00:16:12 发布

阅读量433

点赞数 1

分类专栏：机器学习文章标签：决策树

本文链接：https://blog.csdn.net/sinat_38832964/article/details/97394134

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

决策树

决策树是一种树状结构，它的每一个节点对应着一个分类，非叶节点对应着某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的训练样本中学习并构造出决策树出决策树是一个自上而下，分而治之的过程。

决策树算法分类

决策树算法	算法描述
ID3算法	其核心是在决策树的各级节点上，使用信息增益方法作为属性的选择标准，来帮助确定生成每个节点时所应采用的合适属性
C4.5算法	C4.5生成决策树算法相对于 ID3 算法的重要改进是使用信息增益率来选择节点属性。C4.5 算法可以克服 ID3 算法存在的不足：ID3 算法只适用于离散的描述属性，而 C4.5 算法既能够处理离散的描述属性，也可以处理连续的描述属性
CART算法	CART 决策树是一种十分有效的非参数分类和回归方法，通过构建树、修建树、评估树来构建一个二叉树。当终结点是连续变量时，该树为回归树；当终结点是分类变量，该树为分类树。

实例

实例表格样式
在这里插入图片描述
数据下载: sales_data.xls

采用 ID3 算法构建决策树，具体步骤如下：
1）计算总的信息熵，数据总的记录为34，而销售数量为“高”的记录有18，销售数量为“低”的有16。

-\frac{18}{34}\log_2(\frac{18}{34})-\frac{16}{34}\log_2(\frac{16}{34}) = 0.997503

2）计算各个属性的信息熵。
天气，属性值有“好”和“坏”两种。其中，天气为“好”的情况下，销售数量为“高”的记录为11，销售数量为“低”的记录为6。天气为“坏”的情况下，销售数量为“高”的记录为7，销售数量为“低”的记录为10。

-\frac{11}{17}\log_2(\frac{11}{17})-\frac{6}{17}\log_2(\frac{6}{17}) = 0.936667

-\frac{7}{17}\log_2(\frac{7}{17})-\frac{10}{17}\log_2(\frac{10}{17}) = 0.977418

E(天气)=\frac{17}{34}I(11,6)+\frac{7}{10}I(7,10) = 0.957043

是否为周末，当“是”周末的条件下，销售数量为“高”的记录为11，销售数量为“低”的记录为3，当是否为周末属性为“否”时，销售数量为“高”的记录为7，销售数量为“低”的记录为13。

-\frac{11}{14}\log_2(\frac{11}{14})-\frac{3}{14}\log_2(\frac{3}{14}) = 0.749595

-\frac{7}{20}\log_2(\frac{7}{20})-\frac{13}{20}\log_2(\frac{13}{20}) = 0.934068

E(是否周末)=\frac{14}{34}I(11,3)+\frac{20}{34}I(7,13) = 0.858109

是否有促销，当“是”促销的条件下，销售数量为“高”的记录为15，销售数量为“低”的记录为7，当是否为促销属性为“否”时，销售数量为“高”的记录为3，销售数量为“低”的记录为9。

-\frac{15}{22}\log_2(\frac{15}{22})-\frac{7}{22}\log_2(\frac{7}{22}) = 0.902393

-\frac{3}{12}\log_2(\frac{3}{12})-\frac{9}{12}\log_2(\frac{9}{12}) = 0.811278

E(是否有促销)=\frac{22}{34}I(15，7)+\frac{12}{34}I(3，9) = 0.870235

3）计算天气、是否周末和是否有促销属性的信息增益值。

G a i n (天 气) = I (18, 16) - E (天 气) = 0.04046

G a i n (是 否 周 末) = I (18, 16) - E (是 否 周 末) = 0.139394

G a i n (是 否 有 促 销) = I (18, 16) - E (是 否 有 促 销) = 0.127268

4）由第3）步的计算结果可以知道，是否周末属性的信息增益值最大，它的两个属性值“是”和“否”作为该根节点的两个分支。

代码:

	#-*- coding: utf-8 -*-
	#使用ID3决策树算法预测销量高低
	import pandas as pd
	
	#参数初始化
	inputfile = '../data/sales_data.xls'
	data = pd.read_excel(inputfile, index_col = u'序号') #导入数据
	
	#数据是类别标签，要将它转换为数据
	#用1来表示“好”、“是”、“高”这三个属性，用-1来表示“坏”、“否”、“低”
	data[data == u'好'] = 1
	data[data == u'是'] = 1
	data[data == u'高'] = 1
	data[data != 1] = -1
	x = data.iloc[:,:3].as_matrix().astype(int)
	y = data.iloc[:,3].as_matrix().astype(int)
	
	from sklearn.tree import DecisionTreeClassifier as DTC
	dtc = DTC(criterion='entropy') #建立决策树模型，基于信息熵
	dtc.fit(x, y) #训练模型
	
	#导入相关函数，可视化决策树。
	#导出的结果是一个dot文件，需要安装Graphviz才能将它转换为pdf或png等格式。
	from sklearn.tree import export_graphviz
	x = pd.DataFrame(x)
	from sklearn.externals.six import StringIO
	label = ['天气', '是否周末', '是否有促销']
	x = pd.DataFrame(x, columns=label)
	with open("tree.dot", 'w') as f:
	  f = export_graphviz(dtc, feature_names = x.columns, out_file = f)

效果：

在这里插入图片描述
决策树还有其他算法，未完待续

Pg-Man

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树决策树是一种树状结构，它的每一个节点对应着一个分类，非叶节点对应着某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的训练样本中学习并构造出决策树出决策树是一个自上而下，分而治之的过程。决策树算法分类决策树算法算法描述ID3算法其核心是在决策树的各级节点上...
复制链接

扫一扫