【Python机器学习】决策树集成——随机森林

理论知识:

集成是合并多个机器学习模型来构建更强大模型法方法。

随机森林本质上是许多决策树的集合,其中每棵树都和其他数略有不同,随机森林背后的思想是:每棵树的预测可能都比较好,但是可能对部分数据过拟合,如果构造很多树,并且每棵预测的都很好,但都以不同的方式过拟合,那么可以对这些树的结果取平均来降低过拟合。

为了实现这一策略,需要构造很多决策树。每棵树都应该对目标值做出可以接受的预测,还应该与其他树不同。

随机森林中树的随机化方法有两周:一种是通过选择用于构造树的数据点,另一种是通过选择每次划分测试的特征。

想要构造一个随机森林模型,需要确定用于构造的树的个数。比如构造10棵树,这些树在构造时彼此完全独立,算法对这些树进行不同的随机选择,确保树和树之间是有区别的。想要构造一棵树,首先对数据进行自助采样。也就是说,从数据点中有放回的重复抽取样本,样本数与数据点数相同,这样会创建一个与原数据集相同大小的数据集,但是有些数据点会缺失或重复。

基于新数据集构造决策树,但是要对算法稍作修改。在每个叶结点处,算法随机选择特征的一个子集,并对其中一个特征寻找最佳测试,而不是对每个结点都寻找最佳测试。选择的特征个数由max_features参数来控制。每个结点中特征子集的选择是相互独立的,这样树的每个结点可以使用特征的不同子集来做出决策。

由于使用了自助采样,随机森林中构造每棵决策树的数据集都是略有不同的,由于每个结点的特征选择,每棵树的每次划分都是基于特征的不同子集。这两种方法共同确保了随机森林中每棵树都不相同。

构造过程中的一个关键参数是max_features,如果设置max_features=n_features,那么每次划分都要考虑数据集的所有特征,等于在特征选择过程中没有添加随机性,如果max_features=1,那么在划分时就无法选择对哪个特征进行测试,只能对随机选择的某个特征搜索不同的阈值。为了很好的拟合数据,每棵树的深度都要比较大。

想要利用随机森林进行预测,算法首先对森林中的每棵树进行预测,对于回归问题,可以对这些预测结果取均值作为最终结果,对于分类问题,可以采取“软投票”的方式取概率最大的结果作为最终的预测值。

分析随机森林:

import mglearn.plots
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
X,y=make_moons(n_samples=100,noise=0.25,random_state=3)
X_train,X_test,y_train,y_test=train_test_split(X,y,stratify=y,random_state=42)

forest=RandomForestClassifier(n_estimators=5,random_state=2)
forest.fit(X_train,y_train)

fig,axes=plt.subplots(2,3,figsize=(20,10))
for i,(ax,tree) in enumerate(zip(axes.ravel(),forest.estimators_)):
    ax.set_title('Tree {}'.format(i))
    mglearn.plots.plot_tree_partition(X_train,y_train,tree,ax=ax)
mglearn.plots.plot_2d_separator(forest,X_train,fill=True,ax=axes[-1,-1],alpha=.4)
axes[-1,-1].set_title('随机森林')
mglearn.discrete_scatter(X_train[:,0],X_train[:,1],y_train)
plt.show()

可以看到,5棵树的决策边界大不相同,并且每棵树都犯了一些错误,因为有些训练点实际上没有包含在这些树的训练集里,这是自助采样的结果。

再构造一个包含100棵树的随机森林:

import mglearn.plots
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
import numpy as np

def plot_importances(model):
    n_feature=cancer.data.shape[1]
    plt.barh(range(n_feature),model.feature_importances_,align='center')
    plt.yticks(np.arange(n_feature),cancer.feature_names)
    plt.xlabel('特征重要性')
    plt.ylabel('特征')

plt.rcParams['font.sans-serif'] = ['SimHei']
cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=0)

forest=RandomForestClassifier(n_estimators=100,random_state=0)
forest.fit(X_train,y_train)

print('训练集特征:{:.3f}'.format(forest.score(X_train,y_train)))
print('测试集特征:{:.3f}'.format(forest.score(X_test,y_test)))

plot_importances(forest)
plt.show()

 

可以看到在没有任何参数的情况下,随机森林的精度为97.2%,比线性模型或单棵树都要好。可以通过调节max_feature参数进行调整,但是一般情况下,默认参数就已经可以给出很好的结果了。

特征重要性:

 与单棵树相比,随机森林中有更多特征不为0,而且因为算法需要考虑多种可能的解释,随机森林比单棵树更能从总体上把握数据的特征。

随机森林的优缺点:

随机森林拥有决策树所有的优点,同时弥补了决策树的一些缺点随机森林的本质上是随机的,设置不同的随机状态可以彻底改变构建的模型,森林中的树越多,对随机状态选择的鲁棒性就越好,如果希望可以复现,固定random_state是很重要的。

对于维度非常高的稀疏数据,随机森林的表现往往不是很好,对于这种数据,用线性模型会更合适。随机森林需要更大内存,训练和预测的速度比线性模型要慢一些,所以如果时间和内存很重要,也可以选择线性模型。

随机森林需要调节的参数有n_estimators和max_features,可能还包括预剪枝选项(max_dept), n_estimators越大越好,但是越大需要的内存和时间也更多。

max_features决定每棵树的随机性大小,较小的max_features可以降低过拟合,一般来说,max_features使用默认值就很好,对于分类问题,默认值max_features=sqrt(n_features),对于回归来说,默认值max_features= n_features。

  • 50
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值