python教程决策树_Python机器学习基础教程-第2章-监督学习之决策树集成

最新推荐文章于 2024-04-09 17:13:48 发布

如椽巨笔

最新推荐文章于 2024-04-09 17:13:48 发布

阅读量469

点赞数

文章标签： python教程决策树

本文链接：https://blog.csdn.net/weixin_36381298/article/details/113982768

版权

前言

本系列教程基本就是摘抄《Python机器学习基础教程》中的例子内容。

为了便于跟踪和学习，本系列教程在Github上提供了jupyter notebook 版本：

引子

导入必要的包

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

import mglearn

import os

%matplotlib inline

集成(ensemble)是合并多个机器学习模型来构建更强大模型的方法。在机器学习文献中有许多模型都属于这一类，但已证明有两种集成模型对大量分类和回归的数据集都是有效的，二者都以决策树为基础，分别是随机森林(random forest)和梯度提升决策树(gradient boosted decision tree)。

1. 随机森林

我们刚刚说过，决策树的一个主要缺点在于经常对训练数据过拟合。随机森林是解决这个问题的一种方法。随机森林本质上是许多决策树的集合，其中每棵树都和其他树略有不同。随机森林背后的思想是，每棵树的预测可能都相对较好，但可能对部分数据过拟合。如果构造很多树，并且每棵树的预测都很好，但都以不同的方式过拟合，那么我们可以对这些树的结果取平均值来降低过拟合。既能减少过拟合又能保持树的预测能力，这可以在数学上严格证明。

为了实现这一策略，我们需要构造许多决策树。每棵树都应该对目标值做出可以接受的预测，还应该与其他树不同。随机森林的名字来自于将随机性添加到树的构造过程中，以确保每棵树都各不相同。随机森林中树的随机化方法有两种：一种是通过选择用于构造树的数据点，另一种是通过选择每次划分测试的特征。我们来更深入地研究这一过程。

1.1 构造随机森林

想要构造一个随机森林模型，你需要确定用于构造的树的个数( RandomForestRegressor 或 RandomForestClassifier 的 n_estimators 参数)。比如我们想要构造 10 棵树。这些树在构造时彼此完全独立，算法对每棵树进行不同的随机选择，以确保树和树之间是有区别的。想要构造一棵树，首先要对数据进行自助采样(bootstrap sample)。也就是说，从 n_samples 个数据点中有放回地(即同一样本可以被多次抽取)重复随机抽取一个样本，共抽取n_samples 次。这样会创建一个与原数据集大小相同的数据集，但有些数据点会缺失(大约三分之一)，有些会重复。

举例说明，比如我们想要创建列表 ['a', 'b', 'c', 'd'] 的自助采样。一种可能的自主采样是 ['b', 'd', 'd', 'c'] ，另一种可能的采样为 ['d', 'a', 'd', 'a'] 。

接下来，基于这个新创建的数据集来构造决策树。但是，要对我们在介绍决策树时描述的算法稍作修改。在每个结点处，算法随机选择特征的一个子集，并对其中一个特征寻找最佳测试，而不是对每个结点都寻找最佳测试。选择的特征个数由 max_features 参数来控制。每个结点中特征子集的选择是相互独立的，这样树的每个结点可以使用特征的不同子集来做出决策。

由于使用了自助采样，随机森林中构造每棵决策树的数据集都是略有不同的。由于每个结点的特征选择，每棵树中的每次划分都是基于特征的不同子集。这两种方法共同保证随机森林中所有树都不相同。

在这个过程中的一个关键参数是 max_features 。如果我们设置 max_features 等于n_features ，那么每次划分都要考虑数据集的所有特征，在特征选择的过程中没有添加随机性(不过自助采样依然存在随机性)。如果设置 max_features 等于 1 ，那么在划分时将无法选择对哪个特征进行测试，只能对随机选择的某个特征搜索不同的阈值。因此，如果 max_features 较大，那么随机森林中的树将会十分相似，利用最独特的特征可以轻松拟合数据。如果 max_fe

最低0.47元/天解锁文章

如椽巨笔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python教程决策树_Python机器学习基础教程-第2章-监督学习之决策树集成

前言本系列教程基本就是摘抄《Python机器学习基础教程》中的例子内容。为了便于跟踪和学习，本系列教程在Github上提供了jupyter notebook 版本：引子导入必要的包import numpy as npimport matplotlib.pyplot as pltimport pandas as pdimport mglearnimport os%matplotlib inline集...
复制链接

扫一扫