随机森林实战(python)

本文介绍了如何使用Python的sklearn库实现随机森林模型。通过加载数据、处理缺失值、归一化收入数据,训练并应用随机森林分类器进行预测,最终得到0.87的准确率。
摘要由CSDN通过智能技术生成

前言

随机森林Python版本有很可以调用的库,使用随机森林非常方便,主要用到以下的库:

  • sklearn
  • pandas
  • numpy ### 随机森林入门 我们先通过一段代码来了解Python中如何使用随机森林。 ``` from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier import pandas as pd import numpy as np
  • iris = load_iris() # 这里是sklearn中自带的一部分数据
    df = pd.DataFrame(iris.data, columns=iris.feature_names) # 格式化数据
    print (df) #
    df[‘is_train’] = np.random.uniform(0, 1, len(df)) <= .75
    df[‘species’] = pd.Categorical.from_codes(iris.target, iris.target_names) ## 新接口 数据
    df.head()

    train, test = df[df[‘is_train’]==True], df[df[‘is_train’]==False]

    features = df.columns[:4]
    clf = RandomForestClassifier(n_jobs=2)
    y, _ = pd.factorize(train[‘species’])
    clf.fit(train[features], y) # 用train来训练样本

    test_pred=clf.predict(test[features]) #用测试数据来做预测
    preds = iris.target_names[test_pred]
    pd.crosstab(test[‘species’], preds, rownames=[‘actual’], colnames=[‘preds’])

    上述是一个利用sklearn的数据做的
    ### kaggle-美国人口普查年收入比赛
    现在我们在kaggle上的数据集上做一次实验,这个数据集有训练集和测试集,训练集便于我们训练模型,测试集用来校验我们模型的正确性,这是最简单的。
    <li>需要导入的库
    

    import pandas as pd # load csv’s (pd.read_csv)
    import numpy as np # math (lin.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值