这次我们来系统的了解一下决策树DecisionTreeClassifier的实现和预测
整体需求包:
csv、DictVectorizer、LabelBinarizer、DecisionTreeClassifier、numpy、graphviz、matplotlib、predict
导入需求包:(graphviz后面会用到)
import csv
import matplotlib.pyplot as plt
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree
import numpy as np
需求包介绍:
csv文件的本质是一种以文本存储的表格数据(使用WPS、Excel即可读取csv);
通常第一行是表头说明每列含义,接下来每行代表一行数据。
对特征值进行二进制编码,参考《数字电子技术》中的小白鼠试毒药问题
3.python编程之sklearn.preprocessing.LabelBinarizer()的用法解析
与DictVectorizer函数很像,都是one-hot编码的转换。只是设计目的不一样,LabelBinarizer用来解决标签的转化
4.【Python机器学习】——决策树DecisionTreeClassifier详解
DecisionTreeClassifier属于分类树,这次我们用利用信息熵计算的ID3算法实现
本文中只在末尾用到了reshape函数
6.graphviz python_决策树可视化python
可以说graphviz远没有matplotlib.pyplot好用,又得下载graphviz还得输指令的
7.【Python】 【绘图】plt.figure()的使用
这里主要用的是pyplot中的tree函数,不过没找到相关博客。后面有时间我再写一篇相关介绍,先放上figure函数的用法(创建背景图)
8.python中predict函数_sklearn中predict()与predict_proba()用法区别
对新建数据进行预测
读取数据:
import csv
with open('wm20.csv','rt'