Python——随机森林

机器学习算法 专栏收录该内容
8 篇文章 0 订阅

 

 

  1. 随机森林讲解文档(scikit-learn官方文档)

 

        scikit-learn的官方文档:http://scikit-learn.org/stable/modules/ensemble.html#forests-of-randomized-trees  

       主要告诉大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。

这里我给出我的理解和部分翻译:

 

(1)Sklearn ensemble模块包含了两个基于随机决策树的平均算法:随机森林算法和extr随机树

  这两个算法都是特指用来扰乱和合并树结构的设计。这意味着创建一个多样化的分类器,即在分类器结构方面引入随机性。集成方法的预测结果由所有的单个分类器的预测值的平均值决定。

  与其他分类器相比,树分类器需要有两个数组:

一个密度稀疏矩阵X:【n_samples,n_features】保存着训练样本

一个Y:【n_samples】保存着与训练样本对应的标签值

  像决策树,森林数会拓展到多输出问题(Y=【n_samples, n_outputs】)

(2)在随机森林中,集成器中每棵树都是通过对训练集又放回的抽取进行建立的。另外,在构建数的结构的过程中分离出来的节点,该被选节点不是所有特种中最好的分裂特征。而是当前子训练集所有特征中的最好分裂节点。最为这种随机性的结构,bias是会有稍微的增加的(相较与单个非随机树),但是基于平均计算,方差是在减小的,而且减小的代价是优于bias增长带来的损失的。因此,构建了一个整体较好的模型。(3)参数说明:
最主要的两个参数是n_estimators和max_features。
n_estimators:表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好,预测效果最好的将会出现在合理的树个数。
max_features:随机选择特征集合的子集合,并用来分割节点。子集合的个数越少,方差就会减少的越快,但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则:
max_features=n_features,如果是分类问题则max_features=sqrt(n_features)。

如果想获取较好的结果,必须将max_depth=None,同时min_sample_split=1。

同时还要记得进行cross_validated(交叉验证),除此之外记得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。

 

2.一些文档

这里也给出一篇老外写的文章:调整你的随机森林模型参数http://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/ 

 

随机森林入门—简化版http://www.analyticsvidhya.com/blog/2014/06/introduction-random-forest-simplified/  

重点讲解来随机森林的构造过程,并举了墨西哥的人均收入的问题来进行随机森林概念的讲解。

 

3.这里我使用了scikit-learn自带的iris数据来进行随机森林的预测:(借用别人的例子,自己实现学习了一下)

from sklearn.tree import DecisionTreeRegressor  
from sklearn.ensemble import RandomForestRegressor  
import numpy as np  
   
from sklearn.datasets import load_iris  
iris=load_iris()  
#print iris#iris的4个属性是:萼片宽度 萼片长度 花瓣宽度 花瓣长度 标签是花的种类:setosa versicolour virginica  
print iris['target'].shape  
rf=RandomForestRegressor()#这里使用了默认的参数设置  
rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练  
#    
#随机挑选两个预测不相同的样本  
instance=iris.data[[100,109]]  
print instance  
print 'instance 0 prediction;',rf.predict(instance[0])  
print 'instance 1 prediction;',rf.predict(instance[1])  
print iris.target[100],iris.target[109]  

 

上述代码中:

iris.target中一共有三个类别:0,1,2

iris.data数据图如下所示,一共有四个特征,150个样本

 

 

 

最后测试数据如下图两个样本:

 

最后返回结果如下:

(150,)
[[ 6.3  3.3  6.   2.5]
 [ 7.2  3.6  6.1  2.5]]

('instance 0 prediction\xef\xbc\x9b', array([ 2.]))

('instance 1 prediction\xef\xbc\x9b', array([ 2.]))
(2, 2)

 

最后结果都是类别2.

4.看到别的博客中的显示重要性,觉得还不错,实习了一下

原文如下:

在这里我有点困惑,就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构,甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码(这代码不是我的原创),可以显示的显示出所有的特征的贡献。所以对于贡献不大的,甚至是负贡献的我们可以考虑删除这一列的特征值,避免做无用的分类。

 

from sklearn.cross_validation import cross_val_score, ShuffleSplit
X = iris["data"]
Y = iris["target"]
names = iris["feature_names"]
rf = RandomForestRegressor()
scores = []  #对每一个特征值进行打分,表示重要程度
a = X.shape[1]
for i in range(X.shape[1]):
     score = cross_val_score(rf, X[:, i:i+1], Y, scoring="r2",
                              cv=ShuffleSplit(len(X), 3, .3))
     scores.append((round(np.mean(score), 3), names[i]))
print sorted(scores, reverse=True)

 

note:python中shape方法用法: 矩阵.shape[0]:返回矩阵行数;

                                                     矩阵.shape[1]:返回矩阵列数;

 

最后返回结果:

[(0.92, 'petal length (cm)'), (0.915, 'petal width (cm)'), (0.576, 'sepal length (cm)'), (-0.009, 'sepal width (cm)')]

这里我们会发现petal width、petal length这两个特征将起到绝对的贡献,之后是sepal length,影响最小的是sepal width。这段代码将会提示我们各个特征的贡献,可以让我们知道部分内部的结构。

 

 

 

 

 

  • 4
    点赞
  • 0
    评论
  • 9
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值