1.决策树原理
决策树(decision tree)是一类常见的机器学子方法。具体的原理这里不做介绍,读者可以简单理解为:要用决策树做未知样本的分类(预测),一定要现根据已有样本,训练、产生一颗泛化能力强,即能处理未知样本的决策树。
2.用决策树做分类的例子
a.数据集,名为getbed.csv
季节 时间已过八点 风力情况 要不要赖床
spring no breeze yes
winter no no wind yes
autumn yes breeze yes
winter no no wind yes
summer no breeze yes
winter yes breeze yes
winter no gale yes
winter no no wind yes
spring yes no wind no
summer yes gale no
summer no gale no
autumn yes breeze no
注意,读者制作getbed.csv时,不要带列名。
关于训练集、验证集和测试集的补充知识:参考训练集、验证集和测试集这三个名词的区别
b.环境准备
需要用到panda 和 scikit-learn,读者环境中没有的,自行安装
c.代码
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn.model_selection import train_test_split
'''
获取数据内容。pandas.read_csv