Scikit-Learn Exercise

最新推荐文章于 2022-06-03 22:58:49 发布

「已注销」

最新推荐文章于 2022-06-03 22:58:49 发布

阅读量245

点赞数

分类专栏：高级程序设计文章标签： Python

本文链接：https://blog.csdn.net/qq_36721548/article/details/80697955

版权

高级程序设计专栏收录该内容

21 篇文章 0 订阅

订阅专栏

Scikit-Learn Exercise

Assignment

In the second ML assignment you have to compare the performance of three different classiﬁcation algorithms, namely Naive Bayes, SVM, and Random Forest. For this assignment you need to generate a random binary classiﬁcation problem, and then train and test (using 10-fold cross validation) the three algorithms.
For some algorithms inner cross validation (5-fold) for choosing the parameters is needed. Then, show the classiﬁcation performace (per-fold and averaged) in the report, and brieﬂy discussing the results.

Code

from sklearn import datasets
from sklearn import cross_validation 
from sklearn import metrics 
from sklearn.naive_bayes import GaussianNB 
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

Create a Classiﬁcation Dataset

# Create a Classification Dataset 
dataset = datasets.make_classification(n_samples=1000, n_features=10, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2)

Split the Dataset Using 10-fold Cross Validation

# Split the Dataset Using 10-fold Cross Validation
kf = cross_validation.KFold(len(dataset[0]), n_folds=10, shuffle=True) 
for train_index, test_index in kf: 
    X_train, y_train = dataset[0][train_index], dataset[1][train_index] 
    X_test, y_test = dataset[0][test_index], dataset[1][test_index]

print("X_train:\n", X_train) 
print("y_train:\n", y_train) 
print("X_test:\n", X_test) 
print("y_test:\n", y_test)

Train the Algorithms

Gaussian NB

# Predict using Naive Bayes 
NB_clf = GaussianNB() 
NB_clf.fit(X_train, y_train) 
NB_pred = NB_clf.predict(X_test)

print("Algorithm:\tGaussianNB")
print("Predict:\n", NB_pred)
print("y_test:\n", y_test)

NB_acc = metrics.accuracy_score(y_test, NB_pred) 
print("Accuracy:\t", NB_acc)
NB_f1 = metrics.f1_score(y_test, NB_pred) 
print("F1 Score:\t", NB_f1) 
NB_auc = metrics.roc_auc_score(y_test, NB_pred) 
print("AUC ROC:\t", NB_auc)

SVC

# Calculate Best C
c_args=[1e-2, 1e-1, 1e0, 1e1, 1e2]
c_best=0
c_eva=0
inn_kf = cross_validation.KFold(len(X_train), n_folds=5, shuffle=True)
for inn_train_index, inn_test_index in inn_kf:
    inn_X_train, inn_X_test = X_train[inn_train_index], X_train[inn_test_index]
    inn_y_train, inn_y_test = y_train[inn_train_index], y_train[inn_test_index]
for c_arg in c_args:
    inn_SVC_clf = SVC(C=c_arg, kernel ="rbf", gamma=0.1)
    inn_SVC_clf.fit(inn_X_train, inn_y_train)
    inn_SVC_pred = inn_SVC_clf.predict(inn_X_test)
    inn_SVC_acc = metrics.accuracy_score(inn_y_test, inn_SVC_pred)
    if inn_SVC_acc > c_eva:
        c_eva = inn_SVC_acc
        c_best = c_arg

# Predict using SVC
SVC_clf = SVC(C=c_best, kernel='rbf', gamma=0.1) 
SVC_clf.fit(X_train, y_train) 
SVC_pred = SVC_clf.predict(X_test)

print("Algorithm:\tSVC")
print("Best C:\t", c_best)
print("Predict:\n", SVC_pred)
print("y_test:\n", y_test)

SVC_acc = metrics.accuracy_score(y_test, SVC_pred) 
print("Accuracy:\t", SVC_acc)
SVC_f1 = metrics.f1_score(y_test, SVC_pred) 
print("F1 Score:\t", SVC_f1) 
SVC_auc = metrics.roc_auc_score(y_test, SVC_pred) 
print("AUC ROC:\t", SVC_auc)

Random Forest Classifier

# Calculate Best n_estimator
n_args=[10, 100, 1000]
n_best=0
n_eva=0
inn_kf = cross_validation.KFold(len(X_train), n_folds=5, shuffle=True)
for inn_train_index, inn_test_index in inn_kf:
    inn_X_train, inn_X_test = X_train[inn_train_index], X_train[inn_test_index]
    inn_y_train, inn_y_test = y_train[inn_train_index], y_train[inn_test_index]
for n_arg in n_args:
    inn_RFC_clf = RandomForestClassifier(n_estimators=n_arg) 
    inn_RFC_clf.fit(inn_X_train, inn_y_train)
    inn_RFC_pred = inn_RFC_clf.predict(inn_X_test)
    inn_RFC_acc = metrics.accuracy_score(inn_y_test, inn_RFC_pred)
    if inn_RFC_acc > n_eva:
        n_eva = inn_RFC_acc
        n_best = n_arg

# Predict using RFC
RFC_clf = RandomForestClassifier(n_estimators=n_best) 
RFC_clf.fit(X_train, y_train) 
RFC_pred = RFC_clf.predict(X_test)

print("Algorithm:\tRFC")
print("Best n_estimator:\t", n_best)
print("Predict:\n", RFC_pred)
print("y_test:\n", y_test)

RFC_acc = metrics.accuracy_score(y_test, RFC_pred) 
print("Accuracy:\t", RFC_acc)
RFC_f1 = metrics.f1_score(y_test, RFC_pred) 
print("F1 Score:\t", RFC_f1) 
RFC_auc = metrics.roc_auc_score(y_test, RFC_pred) 
print("AUC ROC:\t", RFC_auc)