前言
随机森林Python版本有很可以调用的库,使用随机森林非常方便,主要用到以下的库:
- sklearn
- pandas
- numpy ### 随机森林入门 我们先通过一段代码来了解Python中如何使用随机森林。 ``` from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier import pandas as pd import numpy as np
iris = load_iris() # 这里是sklearn中自带的一部分数据
df = pd.DataFrame(iris.data, columns=iris.feature_names) # 格式化数据
print (df) #
df[‘is_train’] = np.random.uniform(0, 1, len(df)) <= .75
df[‘species’] = pd.Categorical.from_codes(iris.target, iris.target_names) ## 新接口 数据
df.head()train, test = df[df[‘is_train’]==True], df[df[‘is_train’]==False]
features = df.columns[:4]
clf = RandomForestClassifier(n_jobs=2)
y, _ = pd.factorize(train[‘species’])
clf.fit(train[features], y) # 用train来训练样本test_pred=clf.predict(test[features]) #用测试数据来做预测
preds = iris.target_names[test_pred]
pd.crosstab(test[‘species’], preds, rownames=[‘actual’], colnames=[‘preds’])上述是一个利用sklearn的数据做的 ### kaggle-美国人口普查年收入比赛 现在我们在kaggle上的数据集上做一次实验,这个数据集有训练集和测试集,训练集便于我们训练模型,测试集用来校验我们模型的正确性,这是最简单的。 <li>需要导入的库
import pandas as pd # load csv’s (pd.read_csv)
import numpy as np # math (lin.