【Python】随机森林预测


前言

建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。
随机主要体现在以下两个方面:

1. 随机取特征
2. 随机取样本,让森林中的每棵树既有相似性又有差异性


一、为什么要使用RF

1.优点:

  1. 准确率高运行起来高效(树之间可以并行训练)

  2. 不用降维也可以处理高维特征

  3. 给出了度量特征重要性的方法

  4. 建树过程中内部使用无偏估计

  5. 有很好的处理缺失值的算法

  6. 对于类别不平衡数据能够平衡误差

  7. 能够度量样本之间的相似性,并基于这种相似性对于样本进行聚类和筛选异常值

  8. 提出了一种衡量特征交互性的经验方法(数据中存在冗余特征时能很好的处理)

  9. 可以被扩展到无监督学习

  10. 易于检测模型准确性(如ROC曲线)

以上优点基于总结和个人看法

2.缺点:

  1. 黑盒,不可解释性强,多个随机导致了非常好的效果
  2. 在某些噪声较大的分类和回归问题上会过拟合
  3. 模型会非常大,越准确意味着越多的数
  4. 所生成的决策树量较多,分析较为麻烦

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
import seaborn as sns
from six import StringIO
from IPython.display import Image
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import export_graphviz
import pydotplus
import os

2.读入数据

代码如下(示例):

data_train = pd.read_excel("data_train.xlsx")
# data_train.describe().to_excel('data_train_describe.xlsx')
# 数据描述性分析
print(data_train.describe())
# 数据完整性、数据类型查看
print(data_train.info())

运用统计学方法对数据进行整理和描述性分析


3.缺失值数据处理

# 数据缺失值个数
total = data_train.isnull().sum().sort_values(ascending=False)
# 缺失值数据比例
percent = (data_train.isnull().sum() / data_train.isnull().count()).sort_values(ascending=False)
print(total)
print(percent)

上一幅代码是对缺失值数据的统计,下一幅代码是对缺失值数据的填充。

# 缺失值填充
data_train['x1'] = data_train['x1'].fillna(0)
print(data_train.isnull().sum().max())

4.哑变量数据的处理

# 哑变量处理
data_train.loc[data_train['x10'] == '类别1', 'x10'] = 1
data_train.loc[data_train['x10'] == '类别2', 'x10'] = 2
a = pd.get_dummies(data_train['x10'], prefix="x10")
frames = [data_train, a]
data_train = pd.concat(frames, axis=1)
data_train = data_train.drop(columns=['x10'])
data_train.to_excel('data_train_yucl.xlsx')

5.特征变量

# 特征变量x1和标签变量y关系的散点图
var = 'x1'
data = pd.concat([data_train['y'], data_train[var]], axis=1)
data.plot.scatter(x=var, y='y')
plt.show()

# 特征变量x5和标签变量y关系的散点图
var0 = 'x5'
data0 = pd.concat([data_train['y'], data_train[var0]], axis=1)
data0.plot.scatter(x=var0, y='y')
plt.show()


# 特征数据和标签数据拆分
X = data_train.drop(columns=['y'])
y = data_train['y']

特征数据的分析是为了更好的找出变量的重要程度。feature selection 的本质就是对一个给定特征子集的优良性通过一个特定的评价标准(evaluation criterion)进行衡量.通过特征选择,原始特征集合中的冗余(redundant)特征和不相关(irrelevant)特征被除去。而有用特征得以保留。这样模型相同,数据相同,而特征变量的选取不同,将会对结果带来巨大的影响,这也说明了在不同环境下,选取不同的特征变量进行分析的重要性。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.建模

#  建模
forest = RandomForestRegressor(
    n_estimators=100,
    random_state=1,
    n_jobs=-1)
forest.fit(X_train, Y_train)

score = forest.score(X_validation, Y_validation)
print('随机森林模型得分: ', score)
y_validation_pred = forest.predict(X_validation)

通过调用RandomForestRegressor,我们可以进行建模,当然这也是最基础的建模。

7.验证集结果输出对比

# 验证集结果输出与比对
plt.figure()
plt.plot(np.arange(1000), Y_validation[:1000], "go-", label="True value")
plt.plot(np.arange(1000), y_validation_pred[:1000], "ro-", label="Predict value")
plt.title("True value And Predict value")
plt.legend()
plt.show()

在这里插入图片描述

8.决策树

# 生成决策树
# dot_data = StringIO()
with open('./wine.dot','w',encoding='utf-8') as f:
    f=export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f)
# graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
# graph.write_png('tree.png')
# Image(graph.create_png())

9.模型特征重要性

col = list(X_train.columns.values)
importances = forest.feature_importances_
x_columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9', 'x10_类别1', 'x10_类别2']
# print("重要性:", importances)
# 返回数组从大到小的索引值

在这里插入图片描述

总结

通过随机森林模型的预测,可以发现所预测数据和真实的数据很接近,并且得分较高。

  • 51
    点赞
  • 356
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论
随机森林回归是一种基于决策树的集成学习方法,用于解决回归问题。在Python中,您可以使用sklearn库中的RandomForestRegressor类来构建和训练随机森林回归模型。首先,您需要导入相应的库,并创建一个随机森林回归对象。然后,使用fit方法来训练模型,传入训练数据集X_train和对应的目标变量Y_train。下面是一个示例代码: ```python from sklearn.ensemble import RandomForestRegressor from sklearn import metrics import numpy as np forest = RandomForestRegressor(n_estimators=100, random_state=1, n_jobs=-1) forest.fit(X_train, Y_train) ``` 在训练完成后,您可以使用score方法来评估模型的性能,常用的评估指标包括准确率分数、平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)。以下是一个示例代码: ```python score = forest.score(X_validation, Y_validation) print('随机森林模型得分:', score) print('Mean Absolute Error:', metrics.mean_absolute_error(Y_validation, y_validation_pred)) print('Mean Squared Error:', metrics.mean_squared_error(Y_validation, y_validation_pred)) print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(Y_validation, y_validation_pred))) ``` 如果您希望可视化决策树,您可以使用export_graphviz函数将决策树导出为.dot文件,并使用Graphviz库将其转换为图形。以下是一个示例代码: ```python from sklearn.tree import export_graphviz import graphviz with open('./wine.dot', 'w', encoding='utf-8') as f: f = export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f) ``` 请注意,这里假设您已经创建了一个名为pipe的管道,并且在管道中的某个步骤使用了随机森林回归器。您可以根据您的具体情况进行相应的修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一帆1018

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值