机器学习:在SAS中运行随机森林

原文链接:http://tecdat.cn/?p=7661

[](http://tecdat.cn/?p=7661)为了…,我们必须使用PROC HPFOREST指定目标变量,并概述天气变量是“类别”还是“定量”。为了进行此分析,我们使用了目标(Repsone变量),该目标是分类的(SAS语言中标称的),如下面的图像代码中所描述的黄色和红色:

运行代码后,我们得到了一系列表格,这些表格将详细分析数据。例如,模型信息让我们知道,随机选择了3个变量来测试每个节点或每个树中可能的分割(黄色)。我们还可以看到,运行的最大树数为100,如蓝色下划线所示。

HPFOREST仅使用在任何观察值下均没有缺失记录的有效变量。但是,我们还可以看到,在研究样本的213个国家中,有213个被利用。

接下来,我们可以看到模型生成带有“基线拟合统计量”的表。就本研究中的数据而言,我们可以看到该模型识别出38%的误分类,换句话说是62%的准确分类。这表示大部分样本已在每个随机选择的样本中正确分类。 

 在下表中分析森林时,我们可以看到误分类率已经达到了最低点,这表明在OOB样本中使用该模型进行测试时,误分类率仅在22%。

最后,我们看到SAS POC HPFOREST为我们提供了“损失减少变量的重要性”表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示,酒精变量排名最高。

现在,以下内容将帮助我们理解如何阅读表格:

  • 规则数:告诉我们使用变量的拆分规则数
  • 每个数据计算两次:
  • Gini OOB:这是在“ Out of Bag”阶段中计算出的数据 
  • 拟合统计告诉我们,OOB数据的偏差较小,因此,数据通过OOB Gini度量进行排序 
  • 就预测自杀率高于正常水平而言,这些变量被列为高度重要性(顶部)和最低重要性(底部)。 
  • 从下表中我们可以看出,最容易预测模型自杀率高于正常模型的变量是酒精消费量,就业率和城市率。 

通过上面的练习,我们可以看到随机森林是一种数据挖掘算法,可以选择重要的解释变量,这些变量可以用于确定响应变量(目标变量)的分类结果还是定量结果。此外,此练习还允许我们结合使用分类变量和定量变量。总之,这个森林让我们知道哪些变量很重要,但彼此之间没有关系。

作者:LT_Ge

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林是一种集成学习方法,它通过构建多个决策树来提高预测准确性。下面是sklearn随机森林的一些基本步骤、参数、属性和接口: 1. 基本步骤: 1.1 参数n_estimators:指定森林树的数量。 1.2 建立森林:使用RandomForestClassifier()函数建立随机森林。 1.3 n_estimators的学习曲线:使用validation_curve()函数绘制n_estimators的学习曲线。 2. 重要的参数、属性、接口: 2.1 random_state:在划分训练集和测试集的类train_test_split、构建决策树的函数、构建随机森林时都可以使用该参数,它可以保证每次运行时得到的结果都是一样的。 2.2 estimators_:查看森林每棵树的状况。 2.3 bootstrap & oob_score:bootstrap参数控制是否进行有放回的随机抽样,oob_score参数控制是否使用袋外样本来评估模型的准确性。 2.4 fit & score:fit()函数用于拟合模型,score()函数用于评估模型的准确性。 2.5 feature_importances_:查看每个特征的重要性。 2.6 apply:返回每个样本所在的叶子节点的索引。 2.7 predict:对新数据进行预测。 2.8 predict_proba:返回每个类别的概率。 3. 随机森林回归器: 3.1 重要的参数、属性、接口:与分类器类似,但是需要使用RandomForestRegressor()函数来建立随机森林回归器。 4. 机器学习调参的基本思想: 泛化误差:模型在新数据上的误差。 标签和特征:标签是我们要预测的变量,特征是我们用来预测标签的变量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值