引言
本文是我写的人工智能系列的第 8 篇文章,文末有前面 7 篇文章的链接,推荐你阅读、分享和交流。
1. 决策树算法简介
决策树是一种应用非常广泛的算法,比如语音识别、人脸识别、医疗诊断、模式识别等。
决策树算法既可以解决分类问题(对应的目标值是类别型的数据),也能解决回归问题(输出结果也可以是连续的数值)。
相比其他算法,决策树有一个非常明显的优势,就是可以很直观地进行可视化,分类规则好理解,让非专业的人也容易看明白。
比如某个周末,你根据天气等情况决定是否出门,如果降雨就不出门,否则看是否有雾霾……这个决策的过程,可以画成这样一颗树形图:
![c218922a4d698b37a06e7024ac7908dd.png](https://i-blog.csdnimg.cn/blog_migrate/61e2c5343cb74a92f28a44084ebab1de.jpeg)
下面我们以 sklearn 中的葡萄酒数据集为例,给定一些数据指标,比如酒精度等,利用决策树算法,可以判断出葡萄酒的类别。
2. 加载数据
为了方便利用图形进行可视化演示,我们只选取其中 2 个特征:第 1 个特征(酒精度)和第 7 个特征(黄酮量),并绘制出 3 类葡萄酒相应的散点图。
import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets# 加载葡萄酒的数据集wine = dataset