随机森林实战教程-Python-Demo

渐暖吧

于 2018-08-08 11:07:30 发布

阅读量1.6k

点赞数 1

分类专栏：技术交流传智播客西安中心

本文链接：https://blog.csdn.net/qq_39581763/article/details/81504679

版权

本文介绍了如何使用Python的sklearn库实现随机森林，并提供了从加载数据到模型训练的实例。首先展示了使用sklearn内置数据集的简单应用，接着通过kaggle美国人口普查年收入比赛数据集进行实战，包括数据预处理和模型评估，展示随机森林在处理分类问题上的应用。

摘要由CSDN通过智能技术生成

前言

随机森林Python版本有很可以调用的库，使用随机森林非常方便，主要用到以下的库：
sklearn
pandas
numpy
随机森林入门

我们先通过一段代码来了解Python中如何使用随机森林。

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np

iris = load_iris() # 这里是sklearn中自带的一部分数据
df = pd.DataFrame(iris.data, columns=iris.feature_names) # 格式化数据
print (df)       #
df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)  ## 新接口数据
df.head()

train, test = df[df['is_train']==True], df[df['is_train']==False]

features = df.columns[:4]
clf = RandomForestClassifier(n_jobs=2)
y, _ = pd.factorize(train['species'])
clf.fit(train[features], y)  # 用train来训练样本

test_pred=clf.predict(test[features]) #用测试数据来做预测
preds = iris.target_names[test_pred]
pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])

上述是一个利用sklearn的数据做的

kaggle-美国人口普查年收入比赛

现在我们在kaggle上的数据集上做一次实验，这个数据集有训练集和测试集，训练集便于我们训练模型，测试集用来校验我们模型的正确性

最低0.47元/天解锁文章

渐暖吧

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
随机森林实战教程-Python-Demo

前言随机森林Python版本有很可以调用的库，使用随机森林非常方便，主要用到以下的库： sklearn pandas numpy随机森林入门我们先通过一段代码来了解Python中如何使用随机森林。from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierimpo...
复制链接

扫一扫

专栏目录