机器学习_决策树

Sklearn实现决策树

导入模块

from sklearn import tree
import numpy as np
# 可视化包
from sklearn.tree import export_graphviz
import graphviz

加载数据

def loaddata():
	dataSet = [[0,0,0,0,'no'],
	[0,0,0,1,'no'],
	[0,1,0,1,'yes'],
	[0,1,1,0,'yes'],
	[0,0,0,0,'no'],
	[1,0,0,0,'no'],
	[1,0,0,1,'no'],
	[1,1,1,1,'yes'],
	[1,0,1,2,'yes'],
	[1,0,1,2,'yes'],
	[2,0,1,2,'yes'],
	[2,0,1,1,'yes'],
	[2,1,0,1,'yes'],
	[2,1,0,2,'yes'],
	[2,0,0,0,'no']]

	feature_name = ['age','job','house','eredit']
	return dataSet, feature_name

模型训练

Sklearn中实现的决策树都是二叉树
DecisionTreeClassifier的常用参数含义:

  • criterion:‘gini’ or ‘entropy’ (default=‘gini’) 前者是基尼系数,后者是信息熵
  • max_depth:决策树最大深度。常用来解决过拟合
  • min_impurity_decresase:这个值限制了决策树的增长,如果某节点的不纯度(基尼系数,信息增益)小于这个阈值,则该节点不再生成子节点
  • min_samples_split:如果是int,则取传入值本身最为最小样本数;如果是float,则用ceil(min_samples_split * 样本数量)的值最为最小样本数,即向上取整。
  • min_samples_leaf:如果是int,则取传入值本身最为最小样本数;如果是float,则用ceil(min_samples_leaf * 样本数量)的值最为最小样本数,即向上取整。这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。
  • max_leaf_nodes:最大叶子节点数。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制,具体的值可以通过交叉验证得到。
  • min_impurity_split:决策树在创建分支时,信息增益(基尼系数)必须大于这个阈值,否则不分裂。
myDat,feature_name = loaddata()
# 取训练数据X
X = np.array(myDat)[:,0:4]
# 取标签y
y = np.array(myDat)[:,-1]
# 定义决策树
model = tree.DecisionTreeClassifier()
# fit数据
model.fit(X,y)
# 预测[1,1,0,1]的分类
print(model.predict([1,1,0,1])

画图

export_graphviz(
	model,
	out_file='tree.dot',
	feature_name = feature_name,
	class_names=['yes','no']
	rounded = True,
	filed = True
)
with open('tree.dot') as f:
	dot_grapth = f.read()

dot = graphviz.Source(dot_grapth)
dot.view()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值