机器学习04:决策树与随机森林
决策树
决策树是一个基本的非线性有监督分类模型,一般被用于处理离散的数据.
它通过对一系列的属性判断测试预测样本的标签,属性判断测试的过程被抽象成一棵树的形式.
一棵决策树由一个根节点,若干个内部节点和若干个叶节点组成.
- 叶节点对应决策结果,而其他每个节点对应于一个属性测试.
- 根节点包含样本全集,每个节点包含的样本集合根据属性测试的结果被划分到子结点中.
- 从根节点到每个叶节点的路径对应了一个判定测试序列.
决策树的生成
生成决策树的过程,就是数据不断分裂的递归过程,每一次分裂,我们都尽可能让同一类的数据被划分到一个分支中(提高划分结果的纯度),当树的叶子节点的数据纯度达到某阈值时,停止分裂该节点.
每遍历到一个新分裂出的节点时,都要考虑两个问题:
- 当前节点是否要进行分裂?
- 如果进行分裂,选择哪个属性进行分裂?
回答这两个问题的关键在于如何衡量当前节点的纯度以及分裂出节点的纯度,有如下三个衡量纯度的指标:
纯度衡量标准 | 用途 | 公式 | 说明 |
---|---|---|---|
信息熵 (Entropy) | 分类 | ∑ i = 1 n f i ( 1 − f i ) \sum_{i=1}^n \, f_i(1-f_i) ∑i=1nfi(1−fi) |
f
i
f_i
fi表示标签
i
i
i出现的频率 n n n表示标签数量 |
基尼系数 (Gini inpurity) | 分类 | ∑ i = 1 n − f i log ( 1 − f i ) \sum_{i=1}^n \, -f_i\log(1-f_i) ∑i=1n−filog(1−fi) |
f
i
f_i
fi表示标签
i
i
i出现的频率 n n n表示标签数量 |
均方误差 (Variance) | 回归 | 1 n ∑ i = 1 n ( x i − μ ) \frac{1}{n} \sum_{i=1}^n \, (x_i-\mu) n1∑i=1n(xi−μ) |
y
i
y_i
yi表示样本
i
i
i实际值,
μ
\mu
μ表示样本均值 n n n表示样本数量 |
决策树的优缺点
决策树的优点
我们前面提到过,逻辑回归也能解决分类问题,但逻辑回归只能进行线性分类,对于线性不可分的样本,逻辑回归并不适用.
例如下面这个样本,我们不能找到一条拟合直线,将两种类别的样本完美分开.
但是使用决策树,我们可以通过先后分别考察
x
1
x_1
x1和
x
2
x_2
x2将两种类别的样本完美分开.
决策树的缺点
- 运算量大: 需要一次加载所有数据进内存,并且找寻分割条件是一个极耗资源的操作.
- 抗干扰能力差: 训练样本出现异常数据时,将对决策树的构造产生很大影响.
为了克服这两个缺点,我们引入了随机森林的概念.
随机森林
我们随机选取数据集的一部分,生成一个决策树.重复上述过程,生成多棵决策树,即可得到随机森林.
在进行预测时,随机森林采用少数服从多数的投票法得到最终结果.
随机森林克服了单棵决策树运算量大和抗干扰能力差的缺点.在实际使用中,我们都会使用随机森林而非决策树.
随机森林VS.逻辑回归
随机森林和逻辑回归是我们至今为止接触到的两个分类器,下面表格对其做出比较:
逻辑回归 | 随机森林 |
---|---|
软分类 | 硬分类 |
线性模型 | 非线性模型 |
输出有概率意义 | 输出无概率意义 |
抗干扰能力强 | 抗干扰能力弱 |
使用代码实现决策树与随机森林
使用sklearn.tree
模块的DecisionTreeClassifier
和sklearn.ensemble
模块的RandomForestClassifier
分别可以训练决策树与随机森林分类器,代码如下:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
data = pd.DataFrame(iris.data)
# 提取鸢尾花数据
X = iris.data # 花萼长度,宽度
y = iris.target # 花的种类
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.75)
# 创建一个最大深度为8,以交叉熵作为纯度标准的分类器
tree_clf = DecisionTreeClassifier(max_depth=8, criterion='entropy')
tree_clf.fit(X_train, y_train)
tree_clf.predict(X_test)
# 创建一个包含15棵决策树的随机森林
rnd_clf = RandomForestClassifier(n_estimators=15, max_leaf_nodes=16)
rnd_clf.fit(X_train, y_train)
rnd_clf.predict(X_test)
使用决策树和随机森林也可以进行回归,不过这种回归的本质仍是分类,得到的估计值是同一类样本的输出的均值其曲线是由一段段水平线连接而成的.
使用sklearn.tree
模块的DecisionTreeRegressor
和sklearn.ensemble
模块的RandomForestRegressor
分别可以训练决策树与随机森林回归器.
import matplotlib.pyplot as plt
import numpy as np
from sklearn.tree import DecisionTreeRegressor
# 创建数据
N = 100
x = np.random.rand(N, 1) * 6 - 3
y = np.sin(x) + np.random.rand(N, 1) * 0.05
plt.plot(x, y, "ko", label="actual")
# 创建不同深度的决策树进行回归
depth = [2, 4, 6, 8, 10]
color = 'rgbmy'
tree_reg = DecisionTreeRegressor()
x_test = np.linspace(-3, 3, 50).reshape(-1, 1)
for d, c in zip(depth, color):
tree_reg.set_params(max_depth=d)
tree_reg.fit(x, y)
y_hat = tree_reg.predict(x_test)
plt.plot(x_test, y_hat, '-', color=c, linewidth=2, label="depth=%d" % d)
plt.legend(loc="upper left")
plt.grid(b=True)
plt.show()