scikit-learn学习之决策树算法

最新推荐文章于 2025-09-20 21:17:38 发布

原创最新推荐文章于 2025-09-20 21:17:38 发布 · 2.2w 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #决策树

sklearn机器学习专栏收录该内容

11 篇文章

订阅专栏

本文介绍了决策树算法的特点、优缺点，并通过Scikit-Learn库展示了决策树分类与回归的实现过程。利用鸢尾花数据集进行了实例演示。

======================================================================
本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行，并进行部分翻译，如有错误，请大家指正
======================================================================

决策树的算法分析与Python代码实现请参考之前的一篇博客：点击阅读接下来我主要演示怎么使用Scikit-Learn完成决策树算法的调用

iris数据集说明：

点击查看

决策树算法的优点：
1：理解和解释起来简单，且决策树模型可以想象
2：需要准备的数据量不大，而其他的技术往往需要很大的数据集，需要创建虚拟变量，去除不完整的数据，但是该算法对于丢失的数据不能进行准确的预测
3：决策树算法的时间复杂度(即预测数据)是用于训练决策树的数据点的对数
4：能够处理数字和数据的类别（需要做相应的转变），而其他算法分析的数据集往往是只有一种类型的变量
5：能够处理多输出的问题
6：使用白盒模型，如果给定的情况是在一个模型中观察到的，该条件的解释很容易解释的布尔逻辑，相比之下，在一个黑盒子模型（例如人工神经网络），结果可能更难以解释
7：可能使用统计检验来验证模型，这是为了验证模型的可靠性
8：从数据结果来看，它执行的效果很好，虽然它的假设有点违反真实模型

决策树算法的缺点：
1：决策树算法学习者可以创建复杂的树，但是没有推广依据，这就是所谓的过拟合，为了避免这种问题，出现了剪枝的概念，即设置一个叶子结点所需要的最小数目或者设置树的最大深度
2：决策树的结果可能是不稳定的，因为在数据中一个很小的变化可能导致生成一个完全不同的树，这个问题可以通过使用集成决策树来解决
3：众所周知，学习一恶搞最优决策树的问题是NP——得到几方面完全的优越性，甚至是一些简单的概念。因此，实际决策树学习算法是基于启发式算法，如贪婪算法，寻求在每个节点上的局部最优决策。这样的算法不能保证返回全局最优决策树。这可以减轻训练多棵树的合奏学习者，在那里的功能和样本随机抽样更换。
4：这里有一些概念是很难的理解的，因为决策树本身并不难很轻易的表达它们，比如说异或校验或复用的问题。
5：决策树学习者很可能在某些类占主导地位时创建有有偏异的树，因此建议用平衡的数据训练决策树

Classification 简单示例

>>> from sklearn import tree
>>> X = [[0, 0], [1, 1]]
>>> Y = [0, 1]
>>> clf = tree.DecisionTreeClassifier()
>>> clf = clf.fit(X, Y)

>>> clf.predict([[2., 2.]])
array([1])

Regression 简单示例

>>> from sklearn import tree
>>> X = [[0, 0], [2, 2]]
>>> y = [0.5, 2.5]
>>> clf = tree.DecisionTreeRegressor()
>>> clf = clf.fit(X, y)
>>> clf.predict([[1, 1]])
array([ 0.5])

决策树算法使用示例

数据集如下图：

程序如下：

<span style="font-size:18px;">#-*- coding: UTF-8 -*- 
'''
Created on 2016/4/23

@author: Administrator
'''
from sklearn.feature_extraction import DictVectorizer
import csv
from sklearn import preprocessing
from sklearn import tree
from sklearn.externals.six import StringIO

#Read in the csv File and put feature in a list of class label
allElectronicsData = open(r"example.csv","rb")
reader = csv.reader(allElectronicsData)
headers = reader.next()
#print headers

featureList = []  
labelList = []
#存放在两个元祖中
for row in reader:
    labelList.append(row[len(row)-1])
    rowDic = {}
    for i in range(1,len(row)-1):
        rowDic[headers[i]] = row[i]
    featureList.append(rowDic)
    
# print featureList
# print labelList

# Vector Feature
vec = DictVectorizer()
dummyX = vec.fit_transform(featureList) .toarray()
# print "dummyX:",dummyX
# print vec.get_feature_names()
# print "labelList:"+str(labelList)

lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
#print "dummyY:" + str(dummyY)

#using desicionTree for classfication
clf = tree.DecisionTreeClassifier(criterion="entropy") #创建一个分类器，entropy决定了用ID3算法
clf = clf.fit(dummyX, dummyY)
print "clf:"+str(clf)

#Visulize model
with open("allEallElectronicInfomationGainori.txt","w") as f:
    f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file = f)

#预测    
oneRowX = dummyX[0,:]
#print "oneRowX:" +str(oneRowX)

newRowX = oneRowX
newRowX[0] = 1
newRowX[2] = 0
print "newRowX:" +str(newRowX)

predictedY = clf.predict(newRowX)
print "predictedY:" + str(predictedY)</span>

使用命令导出图形为pdf：dot -T pdf ex.txt -o output.pdf.txt (windows cmd的命令)