机器学习之随机森林

最新推荐文章于 2023-04-14 16:18:36 发布

一个人的旅行qiu

最新推荐文章于 2023-04-14 16:18:36 发布

阅读量580

点赞数

分类专栏： python机器学习算法原理笔记与实现文章标签：机器学习

本文链接：https://blog.csdn.net/qiujiahao123/article/details/62920326

版权

python机器学习算法原理笔记与实现专栏收录该内容

15 篇文章 0 订阅

订阅专栏

#随机森林存在2重随机性：1样本的随机性 2特征的随机性
import pandas

columns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", 
           "capital_gain", "capital_loss", "hours_per_week", "native_country", "high_income"]
#income = pandas.read_csv("income.csv", index_col=False,names=columns)
income = pandas.read_csv("D:\\test\machineLearning\income.csv", names=columns)
print income.head(2)
columns = ["education","marital_status","occupation","relationship","race", "sex", "native_country", "high_income"]
for name in columns:
    #将不同类别转化为数字
    col = pandas.Categorical.from_array(income[name])
    income[name]=col.codes
print income.head(2)

   age          workclass  fnlwgt   education  education_num  \
0   39          State-gov   77516   Bachelors             13   
1   50   Self-emp-not-inc   83311   Bachelors             13   

        marital_status        occupation    relationship    race    sex  \
0        Never-married      Adm-clerical   Not-in-family   White   Male   
1   Married-civ-spouse   Exec-managerial         Husband   White   Male   

   capital_gain  capital_loss  hours_per_week  native_country high_income  
0          2174             0              40   United-States       <=50K  
1             0             0              13   United-States       <=50K  
   age          workclass  fnlwgt  education  education_num  marital_status  \
0   39          State-gov   77516          9             13               4   
1   50   Self-emp-not-inc   83311          9             13               2   

   occupation  relationship  race  sex  capital_gain  capital_loss  \
0           1             1     4    1          2174             0   
1           4             0     4    1             0             0   

   hours_per_week  native_country  high_income  
0              40              26            0  
1              13              26            0

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
import numpy as np
import math

columns = ["age","capital_gain","occupation","relationship","race", "sex", "native_country", "high_income"]
numpy.random.seed(10)
#洗牌
income=income.reindex(numpy.random.permutation(income.index))
#求最接近它的一个整数
train_max_row = math.floor(income.shape[0]*.8) 
train = income.iloc[:int(train_max_row)]
test = income.iloc[int(train_max_row):]

clf = DecisionTreeClassifier(random_state=1,min_samples_leaf=2)
clf.fit(train[columns],train["high_income"])

clf2 = DecisionTreeClassifier(random_state=1,max_depth=5)
clf2.fit(train[columns],train["high_income"])

predictions = clf.predict(test[columns])
print (roc_auc_score(test["high_income"],predictions))

predictions = clf2.predict(test[columns])
print (roc_auc_score(test["high_income"],predictions))

1.0
1.0

predict = clf.predict_proba(test[columns])[:,1]
predict2 = clf2.predict_proba(test[columns])[:,1]
combined = (predict+predict2)/2
#四舍五入
rounded = np.round(combined)

print(roc_auc_score(test["high_income"],rounded))

1.0

#bagging:每棵树的训练样本使随机的  
tree_count = 10
bag_proportion = .6  #指定训练的样本占总树的多少
predictions = []
for i in range(tree_count):
    #random_state指定随机的状态，不同的值，代表每次得到的随机数都是不一样的
    bag = train.sample(frac=bag_proportion,replace=True,random_state=i)
    clf = DecisionTreeClassifier(random_state=1,min_samples_leaf=2)
    clf.fit(bag[columns],bag["high_income"])
    predictions.append(clf.predict_proba(test[columns])[:,1])
#求10次概率的平均值
combined = numpy.sum(predictions,axis=0)/10
rounded = numpy.round(combined)
print(roc_auc_score(test["high_income"],rounded))

1.0

#bagging:每棵树的训练样本使随机的  
tree_count = 10
bag_proportion = .6  #指定训练的样本占总树的多少
predictions = []
for i in range(tree_count):
    #random_state指定随机的状态，不同的值，代表每次得到的随机数都是不一样的
    bag = train.sample(frac=bag_proportion,replace=True,random_state=i)
    #splitter指定所有特征里的随机部分特征，每次特征都是不一样的
    clf = DecisionTreeClassifier(random_state=1,min_samples_leaf=2,splitter="random",max_features="auto")
    clf.fit(bag[columns],bag["high_income"])
    predictions.append(clf.predict_proba(test[columns])[:,1])
#求10次概率的平均值
combined = numpy.sum(predictions,axis=0)/10
rounded = numpy.round(combined)
print(roc_auc_score(test["high_income"],rounded))

1.0

#使用库函数，同样实现以上功能
from sklearn.ensemble import RandomForestClassifier

#n_estimators代表树的个数
clf = RandomForestClassifier(n_estimators=5,random_state=1,min_samples_leaf=2)
clf.fit(train[columns],train["high_income"])

predict = clf.predict(test[columns])
print(roc_auc_score(test["high_income"],predict))

1.0

一个人的旅行qiu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之随机森林

#随机森林存在2重随机性：1样本的随机性 2特征的随机性import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain
复制链接

扫一扫